Gemini 3.1 Pro：18项测试拿了12个第一，ARC-AGI-2跑出77.1%，推理能力翻倍 - News

二月底，Google DeepMind发布了Gemini 3.1 Pro。发布后有一个数字在开发者社区传得比较广：在目前追踪的18个主要benchmark里，3.1 Pro拿了12个第一。

更值得关注的是ARC-AGI-2——这个测试专门设计来考察模型解决”从未见过的新逻辑题”的能力，防止模型死记硬背训练数据过关。3.1 Pro在这上面跑出了77.1%。

推理能力翻倍到底意味着什么

Google官方说3.1 Pro的推理能力比Gemini 3 Pro提升了2倍以上。

这话听起来模糊，但结合ARC-AGI-2的成绩看是有说服力的。ARC-AGI每次出全新题目，要求模型看几个例子就能归纳出规律并应用——没法靠背答案，只能靠真正推理。

2倍提升，大致对应的是：给一个复杂的多步骤问题，模型能自己拆解、推导、验证，不需要你在prompt里手把手领着走。加入了新的MEDIUM档位Thinking Level（之前只有开关两档），现在可以控制推理深度——不是每个任务都需要最深的推理，按需调节。

技术规格

上下文和输出：

上下文窗口：100万token
最大输出：65K token

支持的输入格式：

文本和代码
图片（单次最多3000张，每张最大7MB）
音频（最长8.4小时）
视频（带音频约45分钟，纯视频约1小时）
PDF（每次最多3000页，单文件最大50MB）

100万token能装什么？大概是一个大型代码仓库的全部代码，或者900页PDF，或者8.4小时的播客音频。把整个项目丢进去然后直接问问题，现在是真的可以操作了。

实用功能

除了推理能力，3.1 Pro加了几个实用的东西：

Grounding with Google Search：回答时可以实时搜索，减少知识截止日期带来的问题
代码执行：模型可以直接运行代码验证结果，不只是生成代码
Finance和Spreadsheet专项优化：这两个agentic场景有专门调过
RAG Engine集成：接企业知识库更方便

还支持批量预测，长上下文任务用缓存的话成本会低很多。

定价

项目	价格
输入	$2.00/M token
输出	$12.00/M token
Reasoning模式输入	$12.00/M token
缓存读取	$0.20/M token
缓存写入	$0.38/M token

跟Claude Opus 4.6（$15/$75）相比便宜很多，和GPT-5.4 Pro接近。如果大量使用缓存，长上下文任务的成本会压得比较低。

目前是公开预览版，知识截止日期是2025年1月。

但综合第一还不是它

要说实话：在综合benchmark排行上，GPT-5.4 Pro的得分是92（BenchLM.ai），Gemini 3.1 Pro是87，Claude Opus 4.6是85。

赢了12/18的单项测试，但某些关键能力维度上还是差一点。特别是编程任务，Claude Opus 4.6的SWE-bench表现仍然更强。

Google在推理和多模态处理上交出了这张答卷，但全面第一还不是。

值不值得切过来

如果你的业务主要是：

长文档处理（合同、报告、代码库审查）
多模态输入（同时处理图片+文字+音频）
成本预算有限但需要接近Opus级别的推理能力

3.1 Pro是一个认真的选项，性价比比较有竞争力。

但如果核心需求是写代码、做agent，Claude还是更成熟。Google在这次发布里能交出77.1%的ARC-AGI-2，说明推理能力是真的在进步，不是刷分。但要完全替代Claude和GPT-5.4，还差那么一点距离。

参考来源：Google's new Gemini Pro model has record benchmark scores — again（TechCrunch）；Gemini 3.1 Pro: A smarter model for your most complex tasks（Google DeepMind Blog）；Gemini 3.1 Pro Preview Model Specs, Costs & Benchmarks（Galaxy.ai）；Gemini 3.1 Pro | Google Cloud Vertex AI Documentation