DeepInfra拿了1.07亿,英伟达也跟投:30%流量已经是Agent在跑

1.07亿美金,B轮,5月4日官宣。

钱不算最大的——但这轮投资人名单挺有信息量:500 Global领投,跟投里出现了英伟达(Nvidia Corp.)、Samsung Next、Supermicro、A.Capital、Felicis、Peak6、Upper90,还有Google早期工程师Georges Harik。

英伟达自己也跑去投一家”推理云”创业公司——这件事在前两年还很罕见,那时候推理基本被各家大厂自家云吞下。到2026年,英伟达开始往独立推理基础设施层投钱,说明这一层已经独立出来了。

DeepInfra跑到哪一步了

CEO Nikola Borisov在公告里说了一句挺扎实的话:

“Inference is no longer a thin layer – it’’s the system constraint that will define the majority of workloads.”

翻成人话:推理不再是薄薄的一层API代理,它就是接下来大部分工作负载的系统瓶颈

数据上看:

  • 支持190+个开源AI模型(Llama、Qwen、DeepSeek、Mistral那一票全在里面)
  • 超过30%的token吞吐来自Agent类工作负载(autonomous agents,不是聊天)
  • 8个美国数据中心,自有GPU基础设施,跑Nvidia Dynamo分布式推理平台
  • GPU混合用了Blackwell和Vera Rubin——Vera Rubin那批今年才量产,能拿到说明跟英伟达的关系不一般
  • 公司公告还说:一周吞5万亿token,自Series A至今token量长25倍,2026年开年到现在收入翻了三倍

30%这个数字最值得看。Agent工作流和Chatbot不一样——一次任务可能调一百个工具、跑几十次API,always-on,不是用户敲完一句话才动。这种负载传统云不擅长,因为它们的计费模型、cold start假设、调度算法都是为人交互设计的。

为什么”自有GPU”突然变成了竞争力

这波融资的故事核心其实是这件事:他们不租AWS的GPU,自己买、自己运营

之前几年,AI推理的标准范式是租AWS、GCP、Azure的GPU服务。问题是这三家自己也卖模型API,价格定得不便宜,还有cold start延迟。Together、Fireworks、Groq、DeepInfra这一批”独立推理云”过去两年集体起来,本质上是吃了这个错配。

DeepInfra自报20倍成本效率提升——这个数字得打折看,因为对比口径很重要。但如果你跑的是开源模型而且量大(比如有百万MAU的产品),换到这类专门的推理云,账单能掉一半以上是普遍体验。

推理云赛道现在怎么排

公司 特色
Together AI 全栈,自研CUDA替代
Fireworks AI Hugging Face生态绑定
Groq LPU专用芯片,被英伟达和AMD都盯上过
Cerebras 巨型晶圆芯片,已上市路上
DeepInfra 8个自营DC,190+开源模型,重点押Agent场景

DeepInfra在估值上不是最显眼的,但定位最清晰:专门做开源模型的推理基础设施,不做闭源代理,不卷模型层。这个定位让它和Together最像,差异点是DeepInfra把基础设施所有权握在自己手里——从GPU到调度到API全栈控制。

Agent化是这个赛道的真正赌注

Borisov那句”推理就是系统瓶颈”不是公关话术。

当agent工作流变成主流,每个用户每分钟可能在后端跑掉几十次推理。Cursor写代码、Claude Code改文件、Salesforce的Agentforce处理工单——这些场景跟ChatGPT那种用户敲一句、模型答一句完全不是一个量级。

谁能把这种场景下的p99延迟压住、把成本压住、还能保证零数据保留,谁就能从企业那里把单子签下来。

DeepInfra这轮钱拿出来的话术里,”agentic workloads”出现的次数比前几轮都多。这个赛道接下来一年,比的就是谁的基础设施能扛住”千个Agent同时调推理”这种场景。

英伟达自己跑来投,可能就是觉得这事真的要发生。

参考来源:DeepInfra Closes $107M Series B to Power Production-Scale AI Inference(GlobeNewswire);Deepinfra lands $107M in funding to build out its dedicated inference cloud for open-source models(SiliconANGLE);DeepInfra Raises $107M Series B to Scale Inference Infrastructure(DeepInfra Blog)