AI图像生成有个一直被吐槽的老毛病:画出来的图里,文字是乱的。菜单上的菜名看不懂,海报标题变成了随机字母组合,UI截图里的按钮文案一塌糊涂。
2026年4月21日,OpenAI发布了ChatGPT Images 2.0。这个问题基本上被解决了。
一个说明问题的细节
TechCrunch的报道里有一个值得记住的细节:两年前,用DALL-E 3生成一张餐厅菜单,菜名会显示成enchuita和churiros这样莫名其妙的字串——根本看不懂的乱码。
用Images 2.0生成同样的菜单,结果是可以直接拿去用的专业效果,文字清晰可读。
这不是功能上的小修小补。AI图像生成里长期没有解决的基础性问题,在这次更新里得到了系统性处理。
Images 2.0的核心能力
OpenAI把这次升级的核心总结成一句话:能渲染经常让图像模型崩溃的细粒度元素——小字、图标、UI组件、高密度构图。
具体来说:
- 文字渲染:图片内的文字可以被正确显示,包括日语、韩语、印地语、孟加拉语等非拉丁文字
- 分辨率:最高支持2K输出
- 多图一致性:从单个prompt生成多张图时,风格和元素能保持连贯
- Thinking模式:模型可以联网搜索参考资料、生成多个变体、对结果自我校验
两种操作模式:
| 模式 | 功能说明 | 可用用户 |
|---|---|---|
| Instant | 快速生成,无联网 | 所有用户(含免费) |
| Thinking | 推理增强,可联网,自我校验 | Plus / Pro / Business |
API同步上线,走用量计费。
DALL-E要退场了
这次发布还附带了一个正式通知:DALL-E 2和DALL-E 3将于2026年5月12日退役,gpt-image-2模型全面接替。
从产品逻辑上看,这其实早有预兆。OpenAI在过去一年里在ChatGPT界面上陆续测试了图像生成的新能力,Images 2.0是这些测试的集中收口。
DALL-E系列陪了用户几年,贡献不小——它是第一批让普通人真正用起来的AI图像工具。但文字渲染问题、风格连贯性问题一直没有根本解决,Images 2.0直接换了思路:把推理能力引入图像生成,让模型在生成图像之前先想清楚。
Thinking模式能联网、能校验、能迭代,这更像是一个有AI协作者帮你完善需求的过程,而不是输入prompt然后等着看结果。
和竞争对手比
图像生成这条赛道现在的主要玩家:
- Midjourney:艺术风格强,文字处理一直是短板
- Adobe Firefly:和Creative Cloud深度整合,商用授权清晰
- Google Imagen 3:技术指标不弱,但产品端的渗透还在推进中
- Stable Diffusion系列:开源生态,灵活度高,需要自己搭
Images 2.0的差异化在于:把推理模型的能力接入了图像生成,这是其他几家目前没有完全跑通的技术路径。尤其是Thinking模式,联网加校验加迭代组合在一起,和传统的文生图逻辑完全不同。
哪些场景直接受益
- 营销和设计团队:生成带清晰文字的宣传物料,不需要后期手动加字
- 产品经理:快速生成UI原型图,按钮和标签文字准确
- 内容创作者:多格漫画、教程图解、带标注的对比图
- 多语言用户:非拉丁文字支持大幅改善,中文用户也直接受益
API开放后,这些能力可以被第三方应用直接集成,不需要用户进ChatGPT操作。
对于一直被文字渲染问题卡住的用户来说,Images 2.0的意义不只是一次升级,而是这个工具第一次真正可用于包含文字内容的生产场景。
参考来源:ChatGPT new Images 2.0 model is surprisingly good at generating text(TechCrunch);Introducing ChatGPT Images 2.0(OpenAI Blog)