AI Agent 评测 Judgment Labs 融资 3200 万 - News

5 月 12 日，旧金山一家叫 Judgment Labs 的公司宣布拿了 3200 万美元。种子轮加 A 轮一起官宣的——Lightspeed Venture Partners 两轮都领投，间隔不到半年。

三个联合创始人都是 20 出头的发小：

Alex Shan，22 岁，CEO，之前在 Stanford NLP 组当 AI 研究员，导师是 Chris Manning
Andrew Li，23 岁，首席科学家，TogetherAI 的早期研究员
Joseph Camyre，23 岁，CTO

三个人从童年起就是好朋友。

钱不大，但事挺有意思——他们要解决的是AI Agent 时代最难量化的那个问题。

旧的评测方法，对新一代 Agent 不够用了

把背景讲清楚——

过去两年大模型评测怎么做？标准做法是：给一个输入，看一个输出，跟标准答案对一下。MMLU、HumanEval、SWE-bench 都这套。这个方法对 chatbot 没问题——你问一句，它答一句，对错一目了然。

但 Agent 不是这么干活的。

一个 Agent 接到任务后会干这些事：拆解、搜索、调用工具、看到中间结果再调整、自己改提示、再来一轮。最后吐出来一个答案。这中间走了一条轨迹（trajectory）——可能几十步、上百次工具调用、好几次自我纠错。

最难受的是：Agent 失败的时候，最终输出可能只是有几处不对，但真正错的地方藏在中间某一步。比如它在第 14 步调错了一个 API，但因为后面自我纠错把表面问题盖过去了，最后给了个看起来合理但其实有问题的结果。

旧方法只看最终答案，根本逮不到这种错。

Lightspeed 的 James Alcorn 是这么概括的：

“Judgment is solving the hardest problem in the agent stack — how do you measure and improve something that thinks, plans, uses tools, and remembers?”

讲人话：怎么测量一个会思考、会规划、会用工具、会记忆的东西，这是 Agent 这层最难的活。

Judgment Labs 在做什么

把他们的产品理解成”AI Agent 的病理切片站”——

每个 Agent 在生产环境跑出来的所有轨迹（每一步决策、每一次工具调用、每一段记忆读写），Judgment 都给你存下来、可视化、可搜索。然后基于上千次真实交互，自动识别出反复出现的失败模式——比如”这个 Agent 在用户问 X 类问题时，有 23% 概率在第 5 步选错工具”。

找到失败模式后，平台会指出根因在哪一步，让团队针对性修。修完之后再回放数据，量化提升了多少。

这个循环——生产数据进去 → 找问题 → 修 → 验证——就是他们说的”continuous improvement layer for AI agents”。

一个客户的原话

公开的客户里有家叫 E3 Group 的公司。CEO Aqil Naeem 出来背书：

“We can see exactly where our agents make mistakes, fix them, and measure the lift.”

讲人话：原来 Agent 出错，我们只知道结果不对——查不出哪一步坏了，也没法证明改了之后真的变好。现在能。

这句话其实说出了企业 AI 落地最大的痛点——97% 的企业部署了 AI Agent，只有 29% 赚到了钱（#152 写过这数）。剩下七成卡在哪？大量卡在”我知道这个 Agent 没干好活，但我不知道是 prompt 写得不行、工具选得不对、还是模型本身能力不够”。

不知道根因，就改不动。改不动，就停在试用阶段。

Judgment Labs 卖的不是模型，是模型的反馈回路。

投资人为什么追着投

Lightspeed 半年内连投种子和 A 轮，主投。还有 Nova Global、SV Angel、Valor Equity Partners、Dynamic 跟投。

这种”半年内同一个机构两连投”的模式，硅谷不常见。通常会留点窗口让其他基金竞标。Lightspeed 这么干，说明他们看到了两件事——

第一，AI Agent 这一层的工具链空白巨大。模型层有 OpenAI、Anthropic、Google；编排层有 LangChain、LlamaIndex；但”评估和改进”这一层基本没人做得专业。

第二，企业客户在 Agent 这事上越投越多，但还没有一个让他们看清效果的工具。每多一家公司部署 Agent，Judgment 就多一个潜在客户。

把这两个加起来——这是一个被需求推着跑的赛道，三个 20 岁出头的 Stanford/TogetherAI 出身的发小做这事，VC 不投谁投。

这事的更大背景

把 Judgment Labs 放进过去一年 AI 基础设施的拼图里看就清楚了——

MCP 协议统一了 Agent 调用工具的接口
A2A 协议让 Agent 互相协作
Claude Agent SDK 这种把 Agent 框架直接开放给开发者
现在：怎么测量这些 Agent 跑得好不好

AI Agent 这条线的基础设施正在按”调用 → 协作 → 评估”的顺序补齐。少了哪一块，企业都不敢把生产环境的关键流程交给 AI。

Judgment Labs 补的是最后一块拼图的关键部位。Lightspeed 看到的就是这个时机——基础设施补齐了，企业 AI 落地的速度才会从 29% 往上走。

钱不算大，三个发小才二十出头，但要解决的事情够正经。

参考来源：Judgment Labs Closes $32M in Seed and Series A Funding to Build the Continuous Improvement Layer for AI Agents（BusinessWire）；Judgment Labs Closes $32 Million In Seed And Series A Funding（Pulse 2.0）；Top Startup and Tech Funding News May 12,CocoLoop、 2026（Tech Startups）