HiDream-O1-Image原生全模态大模型登顶AA开源榜首六项Benchmark达到SOTA

2026-05-18 11:23 · 网络　　　

近日，智象未来旗下图像大模型HiDream-O1-Image以匿名“Peanut”身份登上Artificial Analysis文生图榜单，最终以1187 ELO分数登顶开源模型全球*。该模型仅以8B参数规模，在GenEval、DPG、HPSv3、LongText-Bench、GEdit、UniSubject等6项公开评测中达到SOTA（*进水平），并在长文本渲染、多主体保持、多分镜生成等真实生产场景中表现出显著优势。

开源即登顶，用户真实偏好验证

Artificial Analysis榜单通过匿名对比、用户投票和ELO动态排名，最大程度减少品牌认知影响，更接近真实用户偏好。HiDream-O1-Image在超过3000个样本对比中取得1187 ELO，超过Z-Image Turbo、Qwen-Image、FLUX.2 [dev]等主流开源模型。开源当日，模型即冲入Hugging Face模型趋势榜前三。

不仅在总榜领先，该模型在多项专业评测中同样位居第一梯队：GenEval、DPG、HPSv3、LongText-Bench、GEdit、UniSubject，均实现同量级领先，并在部分关键指标上超过Qwen-Image（27B）、FLUX.2 [dev]等更大参数模型。

长文本渲染：复杂版面与中英文混排轻松驾驭

在CVTG-2K和LongText-Bench评测中，HiDream-O1-Image展现出较强的长文本生成能力，尤其在中文场景下表现突出。不依赖传统VAE压缩路径，使模型在文本细节保留和字符结构还原上具备天然优势。以中文长文本测试为例，模型得分0.978，高于GPT Image 2的0.961。

这一能力使模型能够真正承担电商营销、品牌设计、媒体内容等图文一体化生产任务——直播带货画面中的商品名称、价格、促销标签、按钮文案，杂志封面中的大标题、副标题、刊期，游戏界面中的角色名称、概率说明、导航菜单等密集文字均可稳定、清晰地呈现。

（直播场景中，多类商品与互动信息可同时清晰呈现）

多主体保持：4-11个复杂组合稳定生成

在UniSubject等评测中，HiDream-O1-Image在多主体复杂组合场景（4-8个乃至9-11个主体）中持续保持稳定表现。人物、服饰、饰品、包袋、鞋履、道具等多种参考对象能够保留各自外观特征和相互关系，减少属性错位、元素丢失和身份混淆。该能力适用于商品组合展示、角色换装、IP形象扩展和个性化创作等真实场景。

（多参考图组合生成，风格、材质和组合逻辑上保持一致）

多分镜生成：从单图走向视觉叙事

HiDream-O1-Image不仅生成高质量单图，还可在一次推理中生成多宫格连贯故事板，支持人物远景、中景、近景、动作切换和不同视角变化。同一角色在不同画格中姿态变化自然，身份、服装、场景逻辑一致。

（多分镜画面中，角色形象、动作推进和场景逻辑保持连贯）

这一能力对视觉内容生产尤为重要。无论是短片创意、广告脚本、漫画分镜，还是视频前期策划，创作者都需要先有一组结构清晰、镜头明确、角色连贯的视觉方案。比如同一个角色从奔跑、停下、操作设备到再次移动，不同画格之间不仅要姿态变化自然，还要保持人物身份、服装结构和场景逻辑一致。HiDream-O1-Image 在这类任务中的表现，说明它已经开始从“图片生成工具”向“视觉生成工具”延展，具备进入故事板设计、内容策划、漫画制作和视频首帧生成等影视创作工作流的潜力。

此前，智象未来开源模型HiDream-I1上线24小时登顶Artificial Analysis榜单，图像编辑模型HiDream-E1.1进入图像编辑智能体*梯队，相关开源模型全球下载量超200万次。本次HiDream-O1-Image，以原生全模态架构创新实现性能跃迁并登顶，进一步验证了智象未来在底层模型架构上的持续创新能力。

（免责声明：本文转载自其它媒体，转载目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。请读者仅做参考，并请自行承担全部责任。）