Ideogram 把自家最强画图模型直接开源了:93 亿参数能塞进你电脑,开源榜第一只输给 GPT 和 Gemini

做文生图的公司大多把最好的模型锁在 API 后面收钱。Ideogram 这回反着来——6 月 3 日,它把当家旗舰 Ideogram 4.0 的权重直接放到了 GitHub 上,让你下回家自己跑。

这不是一个缩水的开源小号,是它能拿出手的最强那一个。

93 亿参数,从零练的,不是谁的微调版

先说硬货。Ideogram 4.0 是个 93 亿参数的文生图模型,34 层的单流 DiT(扩散 Transformer)结构,文本编码器用的是 Qwen3-VL-8B-Instruct,还抽了它中间 13 层的特征来用。

最关键的一句是:从头练的,不是在别人模型上做微调。这在如今一堆”套壳微调”的开源发布里,分量不一样。

能力上几个点:

  • 原生 2K 分辨率,256 到 2048 像素之间随便出
  • 透明背景,做素材直接能用
  • 包围盒控制——你能用坐标框死某个元素摆在哪,不再是靠运气
  • 文字渲染专门下了功夫,做 logo、海报时字不再糊成一团乱码

控制方式也变了,靠的是结构化的 JSON 提示词。Ideogram 自己的说法是,这给了用户”对构图、风格、光线、配色、排版和空间布局前所未有的控制力”,并把它定位成一个”state-of-the-art foundation model”——业界顶尖的基础模型。

开源榜第一,但有个”但是”

跑分这块,Ideogram 4.0 在 DesignArena 这个偏设计向的榜单上,拿了开源模型里的第一,往上只剩 OpenAI 和谷歌的闭源货比它高。

但别急着捧。The Decoder 自己做了一轮实测,结果是这样的:

对比对象 Ideogram 4.0 的表现
Midjourney v8 赢了
Flux 大致打平
GPT-Image-2
Nano Banana Pro(谷歌)
Luma Uni-1.1

所以”开源第一”是真的,”全面碾压”是没有的。它的位置很清楚:开源阵营里的天花板,但和闭源最强的那几家还隔着一截。

还有个坑得说明白。所谓”open-weight”,权重和代码是能下,但 license 是”Ideogram 4 Non-Commercial”——只能非商用,你拿它接活赚钱得另外买授权。这跟 Apache、MIT 那种放开了用的开源不是一回事,更像是”给你看、给你研究、给你改,但想用它挣钱先付钱”。

跑它也要点门槛:nf4 量化版只认 CUDA 显卡,fp8 版本倒是什么硬件都能上。

把权重放出来,图的是什么

Ideogram 这步棋,算盘其实不难猜。

文生图这条赛道,闭源那头被 OpenAI 的 GPT-Image 和谷歌的 Gemini/Nano Banana 压着,Ideogram 一家硬卷 API,很难卷过。可一旦把权重开出来,玩法就变了——开发者能下回去本地跑,能拿自己的数据微调,能塞进自己的产品里。Hugging Face、ComfyUI、Replicate、Leonardo、Picsart 一圈平台当天就接上了,托管 API 那边一张图收 3 到 10 美分。

说白了,闭源拼的是模型有多强,开源拼的是生态铺得有多广。Ideogram 打不赢前一场,就换个战场打第二场——用”你能拿回家”这件事,去换开发者和那些不想被一家闭源 API 绑死的中小团队。

非商用 license 又给这份”开放”留了条收钱的口子:先用开源把人圈进来,真要商用,再回头谈授权。这套组合拳,押的不是这一代模型谁画得最好,而是下一拨做图的工具,底座愿不愿意用它的。

参考来源:Ideogram 4.0 drops as an open-weight model with native 2K resolution and improved text rendering(The Decoder);Ideogram 4.0 Technical Details(Ideogram 官方博客 / GitHub)