ChatGPT Images 2.0来了:AI终于能把字画对了,DALL-E 3五月退役

AI图像生成有个一直被吐槽的老毛病:画出来的图里,文字是乱的。菜单上的菜名看不懂,海报标题变成了随机字母组合,UI截图里的按钮文案一塌糊涂。

2026年4月21日,OpenAI发布了ChatGPT Images 2.0。这个问题基本上被解决了。

一个说明问题的细节

TechCrunch的报道里有一个值得记住的细节:两年前,用DALL-E 3生成一张餐厅菜单,菜名会显示成enchuita和churiros这样莫名其妙的字串——根本看不懂的乱码。

用Images 2.0生成同样的菜单,结果是可以直接拿去用的专业效果,文字清晰可读。

这不是功能上的小修小补。AI图像生成里长期没有解决的基础性问题,在这次更新里得到了系统性处理。

Images 2.0的核心能力

OpenAI把这次升级的核心总结成一句话:能渲染经常让图像模型崩溃的细粒度元素——小字、图标、UI组件、高密度构图。

具体来说:

  • 文字渲染:图片内的文字可以被正确显示,包括日语、韩语、印地语、孟加拉语等非拉丁文字
  • 分辨率:最高支持2K输出
  • 多图一致性:从单个prompt生成多张图时,风格和元素能保持连贯
  • Thinking模式:模型可以联网搜索参考资料、生成多个变体、对结果自我校验

两种操作模式:

模式 功能说明 可用用户
Instant 快速生成,无联网 所有用户(含免费)
Thinking 推理增强,可联网,自我校验 Plus / Pro / Business

API同步上线,走用量计费。

DALL-E要退场了

这次发布还附带了一个正式通知:DALL-E 2和DALL-E 3将于2026年5月12日退役,gpt-image-2模型全面接替。

从产品逻辑上看,这其实早有预兆。OpenAI在过去一年里在ChatGPT界面上陆续测试了图像生成的新能力,Images 2.0是这些测试的集中收口。

DALL-E系列陪了用户几年,贡献不小——它是第一批让普通人真正用起来的AI图像工具。但文字渲染问题、风格连贯性问题一直没有根本解决,Images 2.0直接换了思路:把推理能力引入图像生成,让模型在生成图像之前先想清楚。

Thinking模式能联网、能校验、能迭代,这更像是一个有AI协作者帮你完善需求的过程,而不是输入prompt然后等着看结果。

和竞争对手比

图像生成这条赛道现在的主要玩家:

  • Midjourney:艺术风格强,文字处理一直是短板
  • Adobe Firefly:和Creative Cloud深度整合,商用授权清晰
  • Google Imagen 3:技术指标不弱,但产品端的渗透还在推进中
  • Stable Diffusion系列:开源生态,灵活度高,需要自己搭

Images 2.0的差异化在于:把推理模型的能力接入了图像生成,这是其他几家目前没有完全跑通的技术路径。尤其是Thinking模式,联网加校验加迭代组合在一起,和传统的文生图逻辑完全不同。

哪些场景直接受益

  • 营销和设计团队:生成带清晰文字的宣传物料,不需要后期手动加字
  • 产品经理:快速生成UI原型图,按钮和标签文字准确
  • 内容创作者:多格漫画、教程图解、带标注的对比图
  • 多语言用户:非拉丁文字支持大幅改善,中文用户也直接受益

API开放后,这些能力可以被第三方应用直接集成,不需要用户进ChatGPT操作。

对于一直被文字渲染问题卡住的用户来说,Images 2.0的意义不只是一次升级,而是这个工具第一次真正可用于包含文字内容的生产场景。

参考来源:ChatGPT new Images 2.0 model is surprisingly good at generating text(TechCrunch);Introducing ChatGPT Images 2.0(OpenAI Blog)