Gemini 3.1 Pro:18项测试拿了12个第一,ARC-AGI-2跑出77.1%,推理能力翻倍

二月底,Google DeepMind发布了Gemini 3.1 Pro。发布后有一个数字在开发者社区传得比较广:在目前追踪的18个主要benchmark里,3.1 Pro拿了12个第一

更值得关注的是ARC-AGI-2——这个测试专门设计来考察模型解决”从未见过的新逻辑题”的能力,防止模型死记硬背训练数据过关。3.1 Pro在这上面跑出了77.1%

推理能力翻倍到底意味着什么

Google官方说3.1 Pro的推理能力比Gemini 3 Pro提升了2倍以上。

这话听起来模糊,但结合ARC-AGI-2的成绩看是有说服力的。ARC-AGI每次出全新题目,要求模型看几个例子就能归纳出规律并应用——没法靠背答案,只能靠真正推理。

2倍提升,大致对应的是:给一个复杂的多步骤问题,模型能自己拆解、推导、验证,不需要你在prompt里手把手领着走。加入了新的MEDIUM档位Thinking Level(之前只有开关两档),现在可以控制推理深度——不是每个任务都需要最深的推理,按需调节。

技术规格

上下文和输出:

  • 上下文窗口:100万token
  • 最大输出:65K token

支持的输入格式:

  • 文本和代码
  • 图片(单次最多3000张,每张最大7MB)
  • 音频(最长8.4小时)
  • 视频(带音频约45分钟,纯视频约1小时)
  • PDF(每次最多3000页,单文件最大50MB)

100万token能装什么?大概是一个大型代码仓库的全部代码,或者900页PDF,或者8.4小时的播客音频。把整个项目丢进去然后直接问问题,现在是真的可以操作了。

实用功能

除了推理能力,3.1 Pro加了几个实用的东西:

  • Grounding with Google Search:回答时可以实时搜索,减少知识截止日期带来的问题
  • 代码执行:模型可以直接运行代码验证结果,不只是生成代码
  • Finance和Spreadsheet专项优化:这两个agentic场景有专门调过
  • RAG Engine集成:接企业知识库更方便

还支持批量预测,长上下文任务用缓存的话成本会低很多。

定价

项目 价格
输入 $2.00/M token
输出 $12.00/M token
Reasoning模式输入 $12.00/M token
缓存读取 $0.20/M token
缓存写入 $0.38/M token

跟Claude Opus 4.6($15/$75)相比便宜很多,和GPT-5.4 Pro接近。如果大量使用缓存,长上下文任务的成本会压得比较低。

目前是公开预览版,知识截止日期是2025年1月。

但综合第一还不是它

要说实话:在综合benchmark排行上,GPT-5.4 Pro的得分是92(BenchLM.ai),Gemini 3.1 Pro是87,Claude Opus 4.6是85。

赢了12/18的单项测试,但某些关键能力维度上还是差一点。特别是编程任务,Claude Opus 4.6的SWE-bench表现仍然更强。

Google在推理和多模态处理上交出了这张答卷,但全面第一还不是。

值不值得切过来

如果你的业务主要是:

  • 长文档处理(合同、报告、代码库审查)
  • 多模态输入(同时处理图片+文字+音频)
  • 成本预算有限但需要接近Opus级别的推理能力

3.1 Pro是一个认真的选项,性价比比较有竞争力。

但如果核心需求是写代码、做agent,Claude还是更成熟。Google在这次发布里能交出77.1%的ARC-AGI-2,说明推理能力是真的在进步,不是刷分。但要完全替代Claude和GPT-5.4,还差那么一点距离。

参考来源:Google's new Gemini Pro model has record benchmark scores — again(TechCrunch);Gemini 3.1 Pro: A smarter model for your most complex tasks(Google DeepMind Blog);Gemini 3.1 Pro Preview Model Specs, Costs & Benchmarks(Galaxy.ai);Gemini 3.1 Pro | Google Cloud Vertex AI Documentation