苹果的端侧AI路线:3B参数模型塞进iPhone还要保隐私

 · 

苹果的AI策略和其他家很不一样——不卷最强通用模型,主打端侧部署和隐私保护

端侧模型:3B参数

2025年WWDC上苹果公布了Apple Foundation Models(AFM),端侧版本大约30亿参数,专门为Apple Silicon优化。

几个关键技术:

  • KV-cache共享:模型分成两个block(深度比5:3),后面的block直接复用前面的KV cache,显存占用减少37.5%
  • 2-bit量化感知训练:权重压到2bit,embedding层4bit,KV cache 8bit
  • 低秩适配器:补偿量化带来的精度损失

最终效果:一个3B参数的模型压缩到可以在iPhone上流畅运行,同时保持足够的能力水平。

服务端模型:PT-MoE

处理不了的复杂任务交给服务端,但用的是苹果自己的Private Cloud Compute——在苹果自研芯片的云服务器上跑,数据不离开苹果的安全飞地。

服务端架构叫Parallel-Track MoE,由多个较小的Transformer”轨道”并行处理token,只在输入和输出边界做同步。同步开销减少了87.5%

隐私优先级

苹果这套设计的优先级排序很清楚:

  1. 能在端侧跑的就不上云
  2. 必须上云的用Private Cloud Compute
  3. 支持15种语言、理解图文输入

这和OpenAI、Anthropic、Google那种”一切上云”的路线形成鲜明对比。苹果赌的是:用户愿意为隐私牺牲一些能力上限。

开发者也有福利——苹果开放了Foundation Models框架,第三方app可以直接调用端侧模型。不过能力上和GPT-4级别的云端模型还有差距,更适合做轻量级的文本处理和理解任务。

参考来源:Apple Machine Learning Research