让 AI 画一张海报,十有八九栽在同一个地方:画面是好看,但文字摆得乱七八糟,该在左上角的标题跑到了中间,logo 怼在人脸上。
6 月 3 日,两家公司同一天出手,冲着的正是这个老毛病——Reve 和 Ideogram 各自甩出新版本,卖点出奇一致:让你能控制「东西到底摆在哪儿」。
一个老难题,两家同天交卷
过去文生图的玩法,是你写一句话,模型猜着给你画。猜得越来越准,但有个东西它一直搞不定:排版。
哪个物体放哪儿、哪行字落在哪块区域、整个画面怎么布局——这些靠一句 prompt 根本说不清。Reve 2 和 Ideogram 4 这次,等于把「布局」从模型瞎猜,变成了你能动手指挥。
两家路子还不太一样。
Reve 2:闭源,主打 4K 和「能上手摆的图」
Reve 这版直接自称「全世界最强的 4K 图像模型」。
它的新东西是一套基于精确布局的生成和编辑方式。官方那句话说得挺有画面感:
“For the first time, it’s possible to create images you can touch.”
讲人话就是——头一回,你能像摆积木一样去动图里的每个元素,而不是重写 prompt 重新抽卡。
据 Arena 的文生图榜,Reve 2 拿到 1280 分,排第二,只输给 OpenAI 的 GPT Image 2,压住了谷歌的 Gemini 3.1 Flash Image。一家创业公司能挤到这个位置,本身就说明文生图这条赛道还没被大厂封死。
Reve 2 是闭源的,走托管 API。
Ideogram 4:开源,2K,排版交给「框选」
Ideogram 走的是另一条路——开源。
Ideogram 4.0 是开放权重模型,能下到自己机器上跑,原生 2K 分辨率。它解决排版的办法很直接:训练时就用「边界框加区域描述」喂,等于明确告诉模型——
“每个物体、每块文字、每个布局元素该待在哪儿。”
这套训法换来几个很实用的能力:文字渲染清楚(做 logo、海报终于不糊了)、支持透明背景、能框选控制布局、还能拿自己的数据微调。
榜单成绩:据 DesignArena,Ideogram 4.0 是所有开放权重模型里的第一,综合排第九,前面只剩 OpenAI 和谷歌的闭源模型。商用要单独买授权,但模型本身上了一长串平台——Hugging Face、ComfyUI、fal、Replicate、Cloudflare、Krea、Leonardo 等十几家都能直接调。
「排版」为什么突然成了新战场
把两家放一块儿看,信号就清楚了:文生图卷到这一步,比的不再是「画得像不像」,而是「听不听你指挥」。
早期大家比清晰度、比真实感,那一关基本过了。现在用图的人——设计师、电商、做营销的——要的不是一张惊艳的随机画,而是一张能精确改、改完就能用的图:标题必须在这,产品必须摆这,字一个都不能错。
这就是 Reve 和 Ideogram 同一天押注「布局」的原因。谁能让 AI 从「出张好看的图」变成「按我说的精确出图」,谁就能从「图一乐」的玩具,变成设计流程里真正离不开的工具。
一个走闭源拼画质上限,一个走开源拼能落地、能本地跑、能改。两条路同天开打,文生图这场仗,下半场算是正式开始了。
参考来源:Reve 2 and Ideogram 4: Layouts in Imagegen(Latent.Space / AINews);Ideogram 4.0 releases open-weight 2K model(AI Daily Post);Reve 2.0 shows image generation is still open for startups(Startup Fortune)