ChatGPT宕机3小时，OpenAI没说清楚原因：AI基础设施的可靠性该认真谈了 - News

4月20日，ChatGPT全球大面积宕机了。

美东时间上午10点多，Down Detector上的故障报告开始激增。英国的报告峰值超过8700份，美国超过1900份。除了ChatGPT主界面，Codex、API平台、Projects功能也一起挂了。部分用户反映正在进行的工作任务因为服务中断被删除了。

到下午1点，OpenAI上线了修复；1点半左右基本恢复正常。整个中断时间大约3小时。

OpenAI怎么回应的

全程，OpenAI状态页的表述是这样的：

“我们继续调查列出服务的问题。”

以及：

“我们已实施缓解措施，正在监控恢复情况。”

没有根本原因说明，没有技术细节，没有复盘报告。

这不是第一次了。ChatGPT历史上几次大规模宕机，OpenAI都没有提供类似AWS或Google Cloud那种详细的事后故障分析——那类报告会说清楚：哪个组件出了问题、为什么影响到这么多用户、下次怎么防。OpenAI每次给的都是最少信息。

这3小时对企业意味着什么

3小时可能听起来不长，但对已经把AI嵌入工作流的团队来说，影响是具体的：

正在跑的Codex任务中断，进度丢失
接入OpenAI API的产品功能全部失效
用ChatGPT处理实时客户请求的团队彻底停工
部分用户的工作内容因故障被系统删除

企业在认真对待AI基础设施可靠性这件事之前，这类事件的代价还是会被低估。

为什么AI服务比传统SaaS更容易出问题

几个结构性原因：

流量高度集中：ChatGPT是全球访问量最大的AI产品之一，任何单点故障波及面都极广。

推理链路复杂：大模型推理不像传统API的简单请求-响应，负载均衡和容错机制更难设计，出了问题也更难快速定位。

迭代速度太快：模型更新和功能迭代频繁，每次部署都可能引入新的不稳定因素。AWS和Google Cloud有几十年的可靠性工程积累，AI服务厂商的工程体系还在追赶中。

SLA问题：AI行业还没认真回答

大多数成熟SaaS会提供99.9%的SLA（服务等级协议），对应每年宕机时间不超过8.7小时；更严格的99.99%则把年宕机时间压到52分钟。

OpenAI目前没有公开的企业SLA承诺。Anthropic也没有。

这意味着：大量企业把核心业务流程押在了一个没有明确可靠性承诺的服务上，合同里也没有因为宕机赔偿的条款。这不是一个小问题，特别是当AI已经进入生产环境的核心路径时。

如果你的业务依赖AI，该想清楚的事

多厂商策略：关键业务同时接入两套API，比如OpenAI和Anthropic。一个挂了另一个还能跑。实现成本不高，但要提前做好路由逻辑。

本地模型备份：非实时任务可以用本地部署的开源模型做降级方案，延迟容忍度高的场景先缓存请求、等服务恢复再处理。

合同条款：跟AI厂商签企业合同时，把可靠性要求写进去——即使厂商目前没有标准SLA，也要有明确的故障通知和补偿机制的约定。

代码层面的韧性设计：超时处理、重试逻辑、fallback路径，这些不是可选项，是接入外部AI API的基本工程要求。

这次宕机不是OpenAI第一次，也不会是最后一次。AI基础设施走向成熟的路上，这类事会一直发生。问题只有一个：已经在生产环境用AI的团队，有没有认真设计过应对预案。

参考来源：ChatGPT was down — Live updates on the massive AI outage（Tom's Guide）；ChatGPT was down for many — as OpenAI says it's 'monitoring the recovery'（TechRadar）；OpenAI's ChatGPT Down for Thousands of Users（GV Wire）；ChatGPT Down: Thousands of Users Hit by Major Outage on April 20（TechGenyz）