Gemini 3.1 Pro:18项测试拿了12个第一,ARC-AGI-2跑出77.1%,推理能力翻倍
二月底,Google DeepMind发布了Gemini 3.1 Pro。发布后有一个数字在开发者社区传得比较广:在目前追踪的18个主要benchmark里,3.1 Pro拿了12个第一。 更值得关注的是ARC-AGI-2——这个测试专门设
共 2 篇文章
二月底,Google DeepMind发布了Gemini 3.1 Pro。发布后有一个数字在开发者社区传得比较广:在目前追踪的18个主要benchmark里,3.1 Pro拿了12个第一。 更值得关注的是ARC-AGI-2——这个测试专门设
月之暗面在K2之前发布的K1.5,核心看点是用纯强化学习来提升推理能力。 技术路线K1.5的推理增强不是靠SFT(监督微调)或RLHF的常规路线,而是更加依赖纯RL(强化学习)训练。 这和DeepSeek R1的思路类似——让模型通过大量的