ChatGPT Images 2.0来了：AI终于能把字画对了，DALL-E 3五月退役 - News

AI图像生成有个一直被吐槽的老毛病：画出来的图里，文字是乱的。菜单上的菜名看不懂，海报标题变成了随机字母组合，UI截图里的按钮文案一塌糊涂。

2026年4月21日，OpenAI发布了ChatGPT Images 2.0。这个问题基本上被解决了。

一个说明问题的细节

TechCrunch的报道里有一个值得记住的细节：两年前，用DALL-E 3生成一张餐厅菜单，菜名会显示成enchuita和churiros这样莫名其妙的字串——根本看不懂的乱码。

用Images 2.0生成同样的菜单，结果是可以直接拿去用的专业效果，文字清晰可读。

这不是功能上的小修小补。AI图像生成里长期没有解决的基础性问题，在这次更新里得到了系统性处理。

OpenAI把这次升级的核心总结成一句话：能渲染经常让图像模型崩溃的细粒度元素——小字、图标、UI组件、高密度构图。

具体来说：

两种操作模式：

模式	功能说明	可用用户
Instant	快速生成，无联网	所有用户（含免费）
Thinking	推理增强，可联网，自我校验	Plus / Pro / Business

API同步上线，走用量计费。

这次发布还附带了一个正式通知：DALL-E 2和DALL-E 3将于2026年5月12日退役，gpt-image-2模型全面接替。

从产品逻辑上看，这其实早有预兆。OpenAI在过去一年里在ChatGPT界面上陆续测试了图像生成的新能力，Images 2.0是这些测试的集中收口。

DALL-E系列陪了用户几年，贡献不小——它是第一批让普通人真正用起来的AI图像工具。但文字渲染问题、风格连贯性问题一直没有根本解决，Images 2.0直接换了思路：把推理能力引入图像生成，让模型在生成图像之前先想清楚。

Thinking模式能联网、能校验、能迭代，这更像是一个有AI协作者帮你完善需求的过程，而不是输入prompt然后等着看结果。

图像生成这条赛道现在的主要玩家：

Images 2.0的差异化在于：把推理模型的能力接入了图像生成，这是其他几家目前没有完全跑通的技术路径。尤其是Thinking模式，联网加校验加迭代组合在一起，和传统的文生图逻辑完全不同。

API开放后，这些能力可以被第三方应用直接集成，不需要用户进ChatGPT操作。

对于一直被文字渲染问题卡住的用户来说，Images 2.0的意义不只是一次升级，而是这个工具第一次真正可用于包含文字内容的生产场景。

参考来源：ChatGPT new Images 2.0 model is surprisingly good at generating text（TechCrunch）；Introducing ChatGPT Images 2.0（OpenAI Blog）