4月2日,Google DeepMind发布了Gemma 4。
这不是第一个Gemma,但有两点跟之前不一样:一是切到了 Apache 2.0协议,二是31B这个版本在Arena AI开源榜上排到了第三名。
四个模型,怎么选?
| 型号 | 类型 | 激活参数 | 上下文 | 特殊能力 |
|---|---|---|---|---|
| E2B | 密集型(端侧优化) | 2B | 128K | 音频输入 |
| E4B | 密集型(端侧优化) | 4B | 128K | 音频输入 |
| 26B A4B | MoE | ~4B | 256K | — |
| 31B | 密集型(旗舰) | 31B | 256K | — |
E2B和E4B是给手机和边缘设备用的,原生支持音频输入(语音识别),多模态覆盖文字+图片+音频。26B的MoE设计和DeepSeek同理:总参数26B,但推理时只激活约4B,性价比高。
31B是旗舰,在Arena AI文字榜上开源模型里排第三,26B MoE排第六。两个大版本的表现都超过参数量少20倍的对手。
Apache 2.0这件事的意义
之前的Gemma系列用的是自定义协议,有使用限制,商业场景下需要单独跟Google谈。切到Apache 2.0之后:
- 随便拿去商用,不用打申请
- 可以改代码、二次分发
- 不需要附加任何条款
这跟Qwen 3的Apache 2.0开源策略是同一个方向。开源大模型的协议战,现在基本上就是Apache 2.0为标准答案,谁还用限制性协议谁就吃亏。
端侧能力有多实用?
E2B和E4B的设计目标是手机和树莓派。按照谷歌的说法,E4B比之前版本 快4倍,省60%电。E2B则有 3倍更快的性能和更低延迟。
考虑到现在主流旗舰手机的存储和算力,E4B应该可以流畅跑起来。Google明确说了,Gemma 4会作为今年晚些时候 Gemini Nano 4 在安卓设备上的基础模型。换句话说,这不只是给开发者玩的,最终会落到普通用户的手机里。
跟Meta Llama 4比怎么样?
同期Meta也在推Llama 4。两家都在卷开源,都用了MoE或高效端侧架构,都支持多模态,都用Apache 2.0协议。
Gemma 4的差异化在端侧:E系列的音频输入支持和超低功耗设计,是Llama 4目前没有重点发力的方向。如果你是做移动端或者IoT场景的开发者,Gemma 4的E系列值得认真考虑。
140多种语言支持对非英语场景也很有意义,中文表现具体怎么样,等社区跑完测试再说。
参考来源:Gemma 4: Byte for byte, the most capable open models(Google DeepMind Blog);Google Releases Gemma 4 in Four Model Sizes Under Apache 2.0 License(gHacks Tech News);Announcing Gemma 4 in the AICore Developer Preview(Android Developers Blog)