返回行业动态

Ideogram 正式开源 9.3B 参数文生图模型 Ideogram 4.0

2026/06/04 06:18
查看原文

OmniTools 6月4日消息,Ideogram 于6月3日正式开源文生图模型 Ideogram 4.0。该模型核心规模为 9.3B 参数,采用单流架构,实现文本 tokens 与图像 tokens 在同一自注意力序列中处理。

技术架构方面,模型集成 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT 主干、Euler 流匹配采样器及冻结 KL 自动编码器。其文字渲染能力突出,可准确生成含较长文本的图像;通过对象与文本边界框联合训练,并结合结构化 JSON 字幕数据,支持通过提示词指定版式与布局控制。

在 DesignArena 人类评估基准中,Ideogram 4.0 综合排名位列全球第 4。