DeepInfra拿了1.07亿，英伟达也跟投：30%流量已经是Agent在跑 - News

1.07亿美金，B轮，5月4日官宣。

钱不算最大的——但这轮投资人名单挺有信息量：500 Global领投，跟投里出现了英伟达（Nvidia Corp.）、Samsung Next、Supermicro、A.Capital、Felicis、Peak6、Upper90，还有Google早期工程师Georges Harik。

英伟达自己也跑去投一家”推理云”创业公司——这件事在前两年还很罕见，那时候推理基本被各家大厂自家云吞下。到2026年，英伟达开始往独立推理基础设施层投钱，说明这一层已经独立出来了。

DeepInfra跑到哪一步了

CEO Nikola Borisov在公告里说了一句挺扎实的话：

“Inference is no longer a thin layer – it’’s the system constraint that will define the majority of workloads.”

翻成人话：推理不再是薄薄的一层API代理，它就是接下来大部分工作负载的系统瓶颈。

数据上看：

支持190+个开源AI模型（Llama、Qwen、DeepSeek、Mistral那一票全在里面）
超过30%的token吞吐来自Agent类工作负载（autonomous agents，不是聊天）
8个美国数据中心，自有GPU基础设施，跑Nvidia Dynamo分布式推理平台
GPU混合用了Blackwell和Vera Rubin——Vera Rubin那批今年才量产，能拿到说明跟英伟达的关系不一般
公司公告还说：一周吞5万亿token，自Series A至今token量长25倍，2026年开年到现在收入翻了三倍

30%这个数字最值得看。Agent工作流和Chatbot不一样——一次任务可能调一百个工具、跑几十次API，always-on，不是用户敲完一句话才动。这种负载传统云不擅长，因为它们的计费模型、cold start假设、调度算法都是为人交互设计的。

为什么”自有GPU”突然变成了竞争力

这波融资的故事核心其实是这件事：他们不租AWS的GPU，自己买、自己运营。

之前几年，AI推理的标准范式是租AWS、GCP、Azure的GPU服务。问题是这三家自己也卖模型API，价格定得不便宜，还有cold start延迟。Together、Fireworks、Groq、DeepInfra这一批”独立推理云”过去两年集体起来，本质上是吃了这个错配。

DeepInfra自报20倍成本效率提升——这个数字得打折看，因为对比口径很重要。但如果你跑的是开源模型而且量大（比如有百万MAU的产品），换到这类专门的推理云，账单能掉一半以上是普遍体验。

推理云赛道现在怎么排

公司	特色
Together AI	全栈，自研CUDA替代
Fireworks AI	Hugging Face生态绑定
Groq	LPU专用芯片，被英伟达和AMD都盯上过
Cerebras	巨型晶圆芯片，已上市路上
DeepInfra	8个自营DC，190+开源模型，重点押Agent场景

DeepInfra在估值上不是最显眼的，但定位最清晰：专门做开源模型的推理基础设施，不做闭源代理，不卷模型层。这个定位让它和Together最像，差异点是DeepInfra把基础设施所有权握在自己手里——从GPU到调度到API全栈控制。

Agent化是这个赛道的真正赌注

Borisov那句”推理就是系统瓶颈”不是公关话术。

当agent工作流变成主流，每个用户每分钟可能在后端跑掉几十次推理。Cursor写代码、Claude Code改文件、Salesforce的Agentforce处理工单——这些场景跟ChatGPT那种用户敲一句、模型答一句完全不是一个量级。

谁能把这种场景下的p99延迟压住、把成本压住、还能保证零数据保留，谁就能从企业那里把单子签下来。

DeepInfra这轮钱拿出来的话术里，”agentic workloads”出现的次数比前几轮都多。这个赛道接下来一年，比的就是谁的基础设施能扛住”千个Agent同时调推理”这种场景。

英伟达自己跑来投，可能就是觉得这事真的要发生。

参考来源：DeepInfra Closes $107M Series B to Power Production-Scale AI Inference（GlobeNewswire）；Deepinfra lands $107M in funding to build out its dedicated inference cloud for open-source models（SiliconANGLE）；DeepInfra Raises $107M Series B to Scale Inference Infrastructure（DeepInfra Blog）