一个26人团队花了公司一半VC，做出了个能打Claude Opus的400亿参数开源推理模型 - News

Arcee AI是家只有26个人的小公司，但他们刚做了一件让圈子里很多人吃惊的事：花了公司大约一半的风险投资，2000万美元，用2048块英伟达B300 GPU跑了33天，训出了一个400亿参数的开源推理模型——Trinity-Large-Thinking。

模型的Agent任务表现相当可以：在Tau2-Airline基准上拿了第一（88分），在PinchBench上拿了第二（91.9分，Anthropic的Claude Opus 4.6是93.3分），AIME25数学推理跑出96.3分。全程Apache 2.0开源协议，可以商用，可以下载，可以改。

不是大力出奇迹，是MoE架构用到极致

Trinity-Large-Thinking是一个混合专家模型（MoE），总参数400亿，但每次推理只激活约13亿——用了256个专家，每次只选4个激活。这意味着它有大模型的”知识储量”，但推理速度和资源占用接近小模型。

训练数据是17万亿tokens，其中超过8万亿是合成生成的。这个比例在现在的高质量开源模型里已经很常见了。

更技术层面的亮点是他们自己研发的 SMEBU（Soft-clamped Momentum Expert Bias Updates）算法，专门解决大规模MoE训练中的”专家崩溃”问题。整个17万亿token的训练过程”零损失尖峰”——对大模型训练来说这很难得，很多MoE训练到中途会出现突然的loss爆炸。

哪里强，哪里有差距

诚实说，Trinity-Large-Thinking不是全面超越Claude Opus，而是在特定场景打出来了。

基准	Trinity-Large-Thinking	Claude Opus 4.6
Tau2-Airline	88（第一）	未公开
PinchBench	91.9（第二）	93.3
AIME25	96.3	—
GPQA-Diamond	76.3	89.2
MMLU-Pro	83.4	89.1

Agent任务能接近顶尖水平，通用推理还有约13个百分点的差距。但考虑到这是开源+可本地部署的模型，这个差距已经很小了。

另外他们还同步发布了 Trinity-Large-TrueBase——保留了指令微调之前的纯预训练状态的”原始检查点”版本。这种版本对做AI基础研究的人很有价值，可以研究RLHF和指令微调对模型行为的具体影响。

更大的背景：美国开源AI缺席太久了

过去一年，开源大模型榜单基本是中国公司的主场：DeepSeek、Qwen、Kimi、GLM，每隔几个月都有新东西冲上来。美国这边一直是Llama一家独撑，但Meta最近把部分新模型闭源，开源社区对此颇有微词。Arcee这次填的就是这个空缺。

CEO Mark McQuade说这个模型的目标用户是企业：可以本地部署、可以定制、不用把数据发给云服务商。对有数据合规要求的金融、医疗、政府机构来说，”可以跑在自己服务器上”这个特性，有时候比benchmark分数更实用。

26个人，2000万美元，33天，400亿参数。

小公司做大事这件事，在AI圈还没死。

参考来源：Arcee AI spent half its venture capital to build an open reasoning model that rivals Claude Opus in agent tasks（The Decoder）；Tiny startup Arcee AI built a 400B-parameter open source LLM from scratch to best Meta's Llama（TechCrunch）；Arcee aims to reboot U.S. open source AI with new Trinity models released under Apache 2.0（VentureBeat）