苹果研究人员在预印本平台 arxiv 上发表了一篇论文《LLM in a Flash》,介绍了在内存有限的设备上运行大模型推理。今天流行的大模型通常是运行在云端,依托数据中心,需要惊人的计算能力,远非本地硬件能比拟。在生成式 AI 领域追赶竞争对手的苹果计划让 AI 在 iPhone 本地直接运行而不是云端运行。苹果在移动领域的竞争对手三星也计划明年推出 AI 智能手机,最大移动芯片制造商高通 CEO Cristiano Amon 预测,智能手机引入 AI 将能带来全新的体验,逆转销量下滑。在移动设备上运行大模型或 AI 聊天机器人如 ChatGPT 需要克服巨大的技术挑战,因为手机的性能和资源都有限,解决该问题意味着大模型能离线工作,能更快响应,同时也具有隐私方面的优点,这也是苹果相对于 Google Android 的一大竞争优势。
https://arstechnica.com/apple/2023/12/apple-wants-ai-to-run-directly-on-its-hardware-instead-of-in-the-cloud/
https://arxiv.org/pdf/2312.11514.pdf