如果你最近在用 ChatGPT Pro 里的 Codex,可能会注意到有个新选项叫 Codex-Spark,响应速度快得有点不像话。
这不是参数调优的结果,是底层硬件换了。
跑在什么芯片上
GPT-5.3-Codex-Spark 运行在 Cerebras WSE-3(Wafer Scale Engine 3) 上,不是 Nvidia GPU。
这是 OpenAI 第一次把一个正式产品级的模型部署在 Nvidia 之外的推理硬件上。
WSE-3 大概是一个餐盘大小的硅片,集成了超过4万亿个晶体管,片内内存巨大,设计目标就是消除数据搬运带来的延迟瓶颈。
实际效果:超过1000个 token/秒。
普通 GPT-5.3-Codex 大约跑65 token/秒。Codex-Spark 快了大约15倍。
OpenAI 和 Cerebras 的合同规模
OpenAI 今年1月签了和 Cerebras 的多年合同。承诺:在2028年前分阶段上线 750兆瓦的 Cerebras 算力,合同总价值超过100亿美元。
但 Sam Altman 也没有否认英伟达,他的表态是”英伟达做出了全球最好的芯片”,长期合作不变。OpenAI 现在的策略是多供应商并行:英伟达做训练主力、Cerebras 覆盖低延迟推理、AMD 签了6GW的协议、Broadcom 定制芯片也在开发。
Cerebras 这边的说法来自 Sachin Katti:”把晶圆级计算引入生产环境,给了我们一种新方式,在对延迟敏感的工作中让 Codex 保持响应。”
Codex-Spark 能用来做什么
OpenAI 把它定位为”开发者的日常生产力工具”,不是用来做深度复杂推理的,是那些需要快速迭代和即时反馈的工作:
- 快速代码编辑和局部重构
- 实时调试和错误定位
- 写 PRD、用户研究文档、监控指标
- 管理测试和跟踪任务进度
核心价值就是不用等。改一个函数、问一个问题、测一段逻辑——接近即时响应。
它支持”中途介入”的工作方式——你可以随时打断 AI 的执行、调整方向,而不是等它跑完一大段再看结果。
基准测试数据
| 指标 | GPT-5.2-Codex | GPT-5.3-Codex-Spark |
|---|---|---|
| Terminal-Bench 2.0 | 64% | 77.3% |
| 推理速度 | ~65 token/s | 1000+ token/s |
| 相对输出速度 | 基准 | 快约25% |
| 部分任务 token 消耗 | 基准 | 少约50% |
跑分提升了,速度还快了15倍,两件事同时发生不多见。
这件事的更大意义
现在 Codex-Spark 只对 ChatGPT 付费用户开放,API 访问还在路上,没有单独调价。
OpenAI 透露 Codex 现在每周活跃用户超过100万。这个体量下,推理延迟直接决定产品体验,不只是规格单上的一行数字。
更关键的信号在于:当 Cerebras 从”理论上能替代英伟达”变成”OpenAI第一个上生产环境的非英伟达硬件”,这个变化在芯片行业里是有具体分量的。
至于英伟达会不会受影响——训练这块,短期内没人能撼动。但推理市场,这条裂缝已经打开了,而且打开的人是 OpenAI。
参考来源:OpenAI launches GPT-5.3-Codex-Spark on Cerebras chips — marks AI giant's first production deployment away from Nvidia(Tom's Hardware);Introducing OpenAI GPT-5.3-Codex-Spark Powered(Cerebras AI Blog);OpenAI's rapid GPT-5.3-Codex model moves beyond simple coding tasks(SiliconANGLE)