一个26人团队花了公司一半VC,做出了个能打Claude Opus的400亿参数开源推理模型

Arcee AI是家只有26个人的小公司,但他们刚做了一件让圈子里很多人吃惊的事:花了公司大约一半的风险投资,2000万美元,用2048块英伟达B300 GPU跑了33天,训出了一个400亿参数的开源推理模型——Trinity-Large-Thinking。

模型的Agent任务表现相当可以:在Tau2-Airline基准上拿了第一(88分),在PinchBench上拿了第二(91.9分,Anthropic的Claude Opus 4.6是93.3分),AIME25数学推理跑出96.3分。全程Apache 2.0开源协议,可以商用,可以下载,可以改。

不是大力出奇迹,是MoE架构用到极致

Trinity-Large-Thinking是一个混合专家模型(MoE),总参数400亿,但每次推理只激活约13亿——用了256个专家,每次只选4个激活。这意味着它有大模型的”知识储量”,但推理速度和资源占用接近小模型。

训练数据是17万亿tokens,其中超过8万亿是合成生成的。这个比例在现在的高质量开源模型里已经很常见了。

更技术层面的亮点是他们自己研发的 SMEBU(Soft-clamped Momentum Expert Bias Updates)算法,专门解决大规模MoE训练中的”专家崩溃”问题。整个17万亿token的训练过程”零损失尖峰”——对大模型训练来说这很难得,很多MoE训练到中途会出现突然的loss爆炸。

哪里强,哪里有差距

诚实说,Trinity-Large-Thinking不是全面超越Claude Opus,而是在特定场景打出来了。

基准 Trinity-Large-Thinking Claude Opus 4.6
Tau2-Airline 88(第一) 未公开
PinchBench 91.9(第二) 93.3
AIME25 96.3
GPQA-Diamond 76.3 89.2
MMLU-Pro 83.4 89.1

Agent任务能接近顶尖水平,通用推理还有约13个百分点的差距。但考虑到这是开源+可本地部署的模型,这个差距已经很小了。

另外他们还同步发布了 Trinity-Large-TrueBase——保留了指令微调之前的纯预训练状态的”原始检查点”版本。这种版本对做AI基础研究的人很有价值,可以研究RLHF和指令微调对模型行为的具体影响。

更大的背景:美国开源AI缺席太久了

过去一年,开源大模型榜单基本是中国公司的主场:DeepSeek、Qwen、Kimi、GLM,每隔几个月都有新东西冲上来。美国这边一直是Llama一家独撑,但Meta最近把部分新模型闭源,开源社区对此颇有微词。Arcee这次填的就是这个空缺。

CEO Mark McQuade说这个模型的目标用户是企业:可以本地部署、可以定制、不用把数据发给云服务商。对有数据合规要求的金融、医疗、政府机构来说,”可以跑在自己服务器上”这个特性,有时候比benchmark分数更实用。

26个人,2000万美元,33天,400亿参数。

小公司做大事这件事,在AI圈还没死。

参考来源:Arcee AI spent half its venture capital to build an open reasoning model that rivals Claude Opus in agent tasks(The Decoder);Tiny startup Arcee AI built a 400B-parameter open source LLM from scratch to best Meta's Llama(TechCrunch);Arcee aims to reboot U.S. open source AI with new Trinity models released under Apache 2.0(VentureBeat)