OpenAI第一次在生产环境绕开英伟达：Codex-Spark跑在Cerebras芯片上，速度快了15倍 - News

如果你最近在用 ChatGPT Pro 里的 Codex，可能会注意到有个新选项叫 Codex-Spark，响应速度快得有点不像话。

这不是参数调优的结果，是底层硬件换了。

跑在什么芯片上

GPT-5.3-Codex-Spark 运行在 Cerebras WSE-3（Wafer Scale Engine 3） 上，不是 Nvidia GPU。

这是 OpenAI 第一次把一个正式产品级的模型部署在 Nvidia 之外的推理硬件上。

WSE-3 大概是一个餐盘大小的硅片，集成了超过4万亿个晶体管，片内内存巨大，设计目标就是消除数据搬运带来的延迟瓶颈。

实际效果：超过1000个 token/秒。

普通 GPT-5.3-Codex 大约跑65 token/秒。Codex-Spark 快了大约15倍。

OpenAI 和 Cerebras 的合同规模

OpenAI 今年1月签了和 Cerebras 的多年合同。承诺：在2028年前分阶段上线 750兆瓦的 Cerebras 算力，合同总价值超过100亿美元。

但 Sam Altman 也没有否认英伟达，他的表态是”英伟达做出了全球最好的芯片”，长期合作不变。OpenAI 现在的策略是多供应商并行：英伟达做训练主力、Cerebras 覆盖低延迟推理、AMD 签了6GW的协议、Broadcom 定制芯片也在开发。

Cerebras 这边的说法来自 Sachin Katti：”把晶圆级计算引入生产环境，给了我们一种新方式，在对延迟敏感的工作中让 Codex 保持响应。”

Codex-Spark 能用来做什么

OpenAI 把它定位为”开发者的日常生产力工具”，不是用来做深度复杂推理的，是那些需要快速迭代和即时反馈的工作：

快速代码编辑和局部重构
实时调试和错误定位
写 PRD、用户研究文档、监控指标
管理测试和跟踪任务进度

核心价值就是不用等。改一个函数、问一个问题、测一段逻辑——接近即时响应。

它支持”中途介入”的工作方式——你可以随时打断 AI 的执行、调整方向，而不是等它跑完一大段再看结果。

基准测试数据

指标	GPT-5.2-Codex	GPT-5.3-Codex-Spark
Terminal-Bench 2.0	64%	77.3%
推理速度	~65 token/s	1000+ token/s
相对输出速度	基准	快约25%
部分任务 token 消耗	基准	少约50%

跑分提升了，速度还快了15倍，两件事同时发生不多见。

这件事的更大意义

现在 Codex-Spark 只对 ChatGPT 付费用户开放，API 访问还在路上，没有单独调价。

OpenAI 透露 Codex 现在每周活跃用户超过100万。这个体量下，推理延迟直接决定产品体验，不只是规格单上的一行数字。

更关键的信号在于：当 Cerebras 从”理论上能替代英伟达”变成”OpenAI第一个上生产环境的非英伟达硬件”，这个变化在芯片行业里是有具体分量的。

至于英伟达会不会受影响——训练这块，短期内没人能撼动。但推理市场，这条裂缝已经打开了，而且打开的人是 OpenAI。

参考来源：OpenAI launches GPT-5.3-Codex-Spark on Cerebras chips — marks AI giant's first production deployment away from Nvidia（Tom's Hardware）；Introducing OpenAI GPT-5.3-Codex-Spark Powered（Cerebras AI Blog）；OpenAI's rapid GPT-5.3-Codex model moves beyond simple coding tasks（SiliconANGLE）