二月底,Google DeepMind发布了Gemini 3.1 Pro。发布后有一个数字在开发者社区传得比较广:在目前追踪的18个主要benchmark里,3.1 Pro拿了12个第一。
更值得关注的是ARC-AGI-2——这个测试专门设计来考察模型解决”从未见过的新逻辑题”的能力,防止模型死记硬背训练数据过关。3.1 Pro在这上面跑出了77.1%。
推理能力翻倍到底意味着什么
Google官方说3.1 Pro的推理能力比Gemini 3 Pro提升了2倍以上。
这话听起来模糊,但结合ARC-AGI-2的成绩看是有说服力的。ARC-AGI每次出全新题目,要求模型看几个例子就能归纳出规律并应用——没法靠背答案,只能靠真正推理。
2倍提升,大致对应的是:给一个复杂的多步骤问题,模型能自己拆解、推导、验证,不需要你在prompt里手把手领着走。加入了新的MEDIUM档位Thinking Level(之前只有开关两档),现在可以控制推理深度——不是每个任务都需要最深的推理,按需调节。
技术规格
上下文和输出:
- 上下文窗口:100万token
- 最大输出:65K token
支持的输入格式:
- 文本和代码
- 图片(单次最多3000张,每张最大7MB)
- 音频(最长8.4小时)
- 视频(带音频约45分钟,纯视频约1小时)
- PDF(每次最多3000页,单文件最大50MB)
100万token能装什么?大概是一个大型代码仓库的全部代码,或者900页PDF,或者8.4小时的播客音频。把整个项目丢进去然后直接问问题,现在是真的可以操作了。
实用功能
除了推理能力,3.1 Pro加了几个实用的东西:
- Grounding with Google Search:回答时可以实时搜索,减少知识截止日期带来的问题
- 代码执行:模型可以直接运行代码验证结果,不只是生成代码
- Finance和Spreadsheet专项优化:这两个agentic场景有专门调过
- RAG Engine集成:接企业知识库更方便
还支持批量预测,长上下文任务用缓存的话成本会低很多。
定价
| 项目 | 价格 |
|---|---|
| 输入 | $2.00/M token |
| 输出 | $12.00/M token |
| Reasoning模式输入 | $12.00/M token |
| 缓存读取 | $0.20/M token |
| 缓存写入 | $0.38/M token |
跟Claude Opus 4.6($15/$75)相比便宜很多,和GPT-5.4 Pro接近。如果大量使用缓存,长上下文任务的成本会压得比较低。
目前是公开预览版,知识截止日期是2025年1月。
但综合第一还不是它
要说实话:在综合benchmark排行上,GPT-5.4 Pro的得分是92(BenchLM.ai),Gemini 3.1 Pro是87,Claude Opus 4.6是85。
赢了12/18的单项测试,但某些关键能力维度上还是差一点。特别是编程任务,Claude Opus 4.6的SWE-bench表现仍然更强。
Google在推理和多模态处理上交出了这张答卷,但全面第一还不是。
值不值得切过来
如果你的业务主要是:
- 长文档处理(合同、报告、代码库审查)
- 多模态输入(同时处理图片+文字+音频)
- 成本预算有限但需要接近Opus级别的推理能力
3.1 Pro是一个认真的选项,性价比比较有竞争力。
但如果核心需求是写代码、做agent,Claude还是更成熟。Google在这次发布里能交出77.1%的ARC-AGI-2,说明推理能力是真的在进步,不是刷分。但要完全替代Claude和GPT-5.4,还差那么一点距离。
参考来源:Google's new Gemini Pro model has record benchmark scores — again(TechCrunch);Gemini 3.1 Pro: A smarter model for your most complex tasks(Google DeepMind Blog);Gemini 3.1 Pro Preview Model Specs, Costs & Benchmarks(Galaxy.ai);Gemini 3.1 Pro | Google Cloud Vertex AI Documentation