Gemini 2.5 Pro发布,Google终于在推理能力上交出了有说服力的答卷

 · 

去年3月底,Google放出了Gemini 2.5 Pro,官方说法是”迄今最智能的模型”。

这种说法每家都会喊,但这次Gemini 2.5 Pro的跑分确实有点东西:

数学和科学推理

  • AIME 2024:92.0%
  • AIME 2025:86.7%
  • Humanity’s Last Exam:18.8%(不用工具的模型里最高)

最后这个测试是几百位领域专家出的题,专门用来测试”人类知识边界”,能拿到接近两成的正确率相当炸裂。

代码和多模态

  • LiveCodeBench:竞赛级编程排名第一
  • MMMU:84.0%(多模态推理)
  • WebDevArena Elo:1443(排行榜第一)

上下文能力

标配100万token上下文(可扩展到200万),支持文本、音频、图片、视频等多模态输入。一整个代码仓库扔进去直接理解,不用切片。

Gemini 2.5 Pro是一个”thinking model”——回答之前会先内部推理。这个设计思路和OpenAI的o系列、DeepSeek R1一脉相承,但Google的实现在多模态场景下表现更均衡。

不过实际使用中有个问题被反复提到:响应速度。深度推理意味着更长的等待时间,在需要快速交互的场景下体验打折扣。这也是所有thinking model共同面对的trade-off。

LMArena上Elo得分1470,比发布前直接涨了24分,维持排行榜领先。Google在AI领域被唱衰了很久,这次算是用产品力回了一嘴。

参考来源:VentureBeat报道、Google官方发布