三个发小搞的Judgment Labs拿了3200万:Lightspeed半年追投两轮,要给AI Agent做'病理切片'

5 月 12 日,旧金山一家叫 Judgment Labs 的公司宣布拿了 3200 万美元。种子轮加 A 轮一起官宣的——Lightspeed Venture Partners 两轮都领投,间隔不到半年

三个联合创始人都是 20 出头的发小:

  • Alex Shan,22 岁,CEO,之前在 Stanford NLP 组当 AI 研究员,导师是 Chris Manning
  • Andrew Li,23 岁,首席科学家,TogetherAI 的早期研究员
  • Joseph Camyre,23 岁,CTO

三个人从童年起就是好朋友。

钱不大,但事挺有意思——他们要解决的是AI Agent 时代最难量化的那个问题

旧的评测方法,对新一代 Agent 不够用了

把背景讲清楚——

过去两年大模型评测怎么做?标准做法是:给一个输入,看一个输出,跟标准答案对一下。MMLU、HumanEval、SWE-bench 都这套。这个方法对 chatbot 没问题——你问一句,它答一句,对错一目了然。

但 Agent 不是这么干活的。

一个 Agent 接到任务后会干这些事:拆解、搜索、调用工具、看到中间结果再调整、自己改提示、再来一轮。最后吐出来一个答案。这中间走了一条轨迹(trajectory)——可能几十步、上百次工具调用、好几次自我纠错。

最难受的是:Agent 失败的时候,最终输出可能只是有几处不对,但真正错的地方藏在中间某一步。比如它在第 14 步调错了一个 API,但因为后面自我纠错把表面问题盖过去了,最后给了个看起来合理但其实有问题的结果。

旧方法只看最终答案,根本逮不到这种错。

Lightspeed 的 James Alcorn 是这么概括的:

“Judgment is solving the hardest problem in the agent stack — how do you measure and improve something that thinks, plans, uses tools, and remembers?”

讲人话:怎么测量一个会思考、会规划、会用工具、会记忆的东西,这是 Agent 这层最难的活。

Judgment Labs 在做什么

把他们的产品理解成”AI Agent 的病理切片站”——

每个 Agent 在生产环境跑出来的所有轨迹(每一步决策、每一次工具调用、每一段记忆读写),Judgment 都给你存下来、可视化、可搜索。然后基于上千次真实交互,自动识别出反复出现的失败模式——比如”这个 Agent 在用户问 X 类问题时,有 23% 概率在第 5 步选错工具”。

找到失败模式后,平台会指出根因在哪一步,让团队针对性修。修完之后再回放数据,量化提升了多少。

这个循环——生产数据进去 → 找问题 → 修 → 验证——就是他们说的”continuous improvement layer for AI agents”。

一个客户的原话

公开的客户里有家叫 E3 Group 的公司。CEO Aqil Naeem 出来背书:

“We can see exactly where our agents make mistakes, fix them, and measure the lift.”

讲人话:原来 Agent 出错,我们只知道结果不对——查不出哪一步坏了,也没法证明改了之后真的变好。现在能。

这句话其实说出了企业 AI 落地最大的痛点——97% 的企业部署了 AI Agent,只有 29% 赚到了钱(#152 写过这数)。剩下七成卡在哪?大量卡在”我知道这个 Agent 没干好活,但我不知道是 prompt 写得不行、工具选得不对、还是模型本身能力不够”。

不知道根因,就改不动。改不动,就停在试用阶段。

Judgment Labs 卖的不是模型,是模型的反馈回路

投资人为什么追着投

Lightspeed 半年内连投种子和 A 轮,主投。还有 Nova Global、SV Angel、Valor Equity Partners、Dynamic 跟投。

这种”半年内同一个机构两连投”的模式,硅谷不常见。通常会留点窗口让其他基金竞标。Lightspeed 这么干,说明他们看到了两件事——

第一,AI Agent 这一层的工具链空白巨大。模型层有 OpenAI、Anthropic、Google;编排层有 LangChain、LlamaIndex;但”评估和改进”这一层基本没人做得专业。

第二,企业客户在 Agent 这事上越投越多,但还没有一个让他们看清效果的工具。每多一家公司部署 Agent,Judgment 就多一个潜在客户。

把这两个加起来——这是一个被需求推着跑的赛道,三个 20 岁出头的 Stanford/TogetherAI 出身的发小做这事,VC 不投谁投。

这事的更大背景

把 Judgment Labs 放进过去一年 AI 基础设施的拼图里看就清楚了——

  • MCP 协议统一了 Agent 调用工具的接口
  • A2A 协议让 Agent 互相协作
  • Claude Agent SDK 这种把 Agent 框架直接开放给开发者
  • 现在:怎么测量这些 Agent 跑得好不好

AI Agent 这条线的基础设施正在按”调用 → 协作 → 评估”的顺序补齐。少了哪一块,企业都不敢把生产环境的关键流程交给 AI。

Judgment Labs 补的是最后一块拼图的关键部位。Lightspeed 看到的就是这个时机——基础设施补齐了,企业 AI 落地的速度才会从 29% 往上走。

钱不算大,三个发小才二十出头,但要解决的事情够正经。

参考来源:Judgment Labs Closes $32M in Seed and Series A Funding to Build the Continuous Improvement Layer for AI Agents(BusinessWire);Judgment Labs Closes $32 Million In Seed And Series A Funding(Pulse 2.0);Top Startup and Tech Funding News May 12, 2026(Tech Startups)