OpenAI第一次在生产环境绕开英伟达:Codex-Spark跑在Cerebras芯片上,速度快了15倍

如果你最近在用 ChatGPT Pro 里的 Codex,可能会注意到有个新选项叫 Codex-Spark,响应速度快得有点不像话。

这不是参数调优的结果,是底层硬件换了。

跑在什么芯片上

GPT-5.3-Codex-Spark 运行在 Cerebras WSE-3(Wafer Scale Engine 3) 上,不是 Nvidia GPU。

这是 OpenAI 第一次把一个正式产品级的模型部署在 Nvidia 之外的推理硬件上。

WSE-3 大概是一个餐盘大小的硅片,集成了超过4万亿个晶体管,片内内存巨大,设计目标就是消除数据搬运带来的延迟瓶颈。

实际效果:超过1000个 token/秒

普通 GPT-5.3-Codex 大约跑65 token/秒。Codex-Spark 快了大约15倍。

OpenAI 和 Cerebras 的合同规模

OpenAI 今年1月签了和 Cerebras 的多年合同。承诺:在2028年前分阶段上线 750兆瓦的 Cerebras 算力,合同总价值超过100亿美元。

但 Sam Altman 也没有否认英伟达,他的表态是”英伟达做出了全球最好的芯片”,长期合作不变。OpenAI 现在的策略是多供应商并行:英伟达做训练主力、Cerebras 覆盖低延迟推理、AMD 签了6GW的协议、Broadcom 定制芯片也在开发。

Cerebras 这边的说法来自 Sachin Katti:”把晶圆级计算引入生产环境,给了我们一种新方式,在对延迟敏感的工作中让 Codex 保持响应。”

Codex-Spark 能用来做什么

OpenAI 把它定位为”开发者的日常生产力工具”,不是用来做深度复杂推理的,是那些需要快速迭代和即时反馈的工作:

  • 快速代码编辑和局部重构
  • 实时调试和错误定位
  • 写 PRD、用户研究文档、监控指标
  • 管理测试和跟踪任务进度

核心价值就是不用等。改一个函数、问一个问题、测一段逻辑——接近即时响应。

它支持”中途介入”的工作方式——你可以随时打断 AI 的执行、调整方向,而不是等它跑完一大段再看结果。

基准测试数据

指标 GPT-5.2-Codex GPT-5.3-Codex-Spark
Terminal-Bench 2.0 64% 77.3%
推理速度 ~65 token/s 1000+ token/s
相对输出速度 基准 快约25%
部分任务 token 消耗 基准 少约50%

跑分提升了,速度还快了15倍,两件事同时发生不多见。

这件事的更大意义

现在 Codex-Spark 只对 ChatGPT 付费用户开放,API 访问还在路上,没有单独调价。

OpenAI 透露 Codex 现在每周活跃用户超过100万。这个体量下,推理延迟直接决定产品体验,不只是规格单上的一行数字。

更关键的信号在于:当 Cerebras 从”理论上能替代英伟达”变成”OpenAI第一个上生产环境的非英伟达硬件”,这个变化在芯片行业里是有具体分量的。

至于英伟达会不会受影响——训练这块,短期内没人能撼动。但推理市场,这条裂缝已经打开了,而且打开的人是 OpenAI。

参考来源:OpenAI launches GPT-5.3-Codex-Spark on Cerebras chips — marks AI giant's first production deployment away from Nvidia(Tom's Hardware);Introducing OpenAI GPT-5.3-Codex-Spark Powered(Cerebras AI Blog);OpenAI's rapid GPT-5.3-Codex model moves beyond simple coding tasks(SiliconANGLE)