近日,智象未来旗下图像大模型HiDream-O1-Image以匿名“Peanut”身份登上Artificial Analysis文生图榜单,最终以1187 ELO分数登顶开源模型全球*。该模型仅以8B参数规模,在GenEval、DPG、HPSv3、LongText-Bench、GEdit、UniSubject等6项公开评测中达到SOTA(*进水平),并在长文本渲染、多主体保持、多分镜生成等真实生产场景中表现出显著优势。
开源即登顶,用户真实偏好验证
Artificial Analysis榜单通过匿名对比、用户投票和ELO动态排名,最 大程度减少品牌认知影响,更接近真实用户偏好。HiDream-O1-Image在超过3000个样本对比中取得1187 ELO,超过Z-Image Turbo、Qwen-Image、FLUX.2 [dev]等主流开源模型。开源当日,模型即冲入Hugging Face模型趋势榜前三。
不仅在总榜领 先,该模型在多项专业评测中同样位居第 一梯队:GenEval、DPG、HPSv3、LongText-Bench、GEdit、UniSubject,均实现同量级领 先,并在部分关键指标上超过Qwen-Image(27B)、FLUX.2 [dev]等更大参数模型。
长文本渲染:复杂版面与中英文混排轻松驾驭
在CVTG-2K和LongText-Bench评测中,HiDream-O1-Image展现出较强的长文本生成能力,尤其在中文场景下表现突出。不依赖传统VAE压缩路径,使模型在文本细节保留和字符结构还原上具备天然优势。以中文长文本测试为例,模型得分0.978,高于GPT Image 2的0.961。
这一能力使模型能够真正承担电商营销、品牌设计、媒体内容等图文一体化生产任务——直播带货画面中的商品名称、价格、促销标签、按钮文案,杂志封面中的大标题、副标题、刊期,游戏界面中的角色名称、概率说明、导航菜单等密集文字均可稳定、清晰地呈现。
(直播场景中,多类商品与互动信息可同时清晰呈现)
多主体保持:4-11个复杂组合稳定生成
在UniSubject等评测中,HiDream-O1-Image在多主体复杂组合场景(4-8个乃至9-11个主体)中持续保持稳定表现。人物、服饰、饰品、包袋、鞋履、道具等多种参考对象能够保留各自外观特征和相互关系,减少属性错位、元素丢失和身份混淆。该能力适用于商品组合展示、角色换装、IP形象扩展和个性化创作等真实场景。
(多参考图组合生成,风格、材质和组合逻辑上保持一致)
多分镜生成:从单图走向视觉叙事
HiDream-O1-Image不仅生成高质量单图,还可在一次推理中生成多宫格连贯故事板,支持人物远景、中景、近景、动作切换和不同视角变化。同一角色在不同画格中姿态变化自然,身份、服装、场景逻辑一致。
(多分镜画面中,角色形象、动作推进和场景逻辑保持连贯)
这一能力对视觉内容生产尤为重要。无论是短片创意、广告脚本、漫画分镜,还是视频前期策划,创作者都需要先有一组结构清晰、镜头明确、角色连贯的视觉方案。比如同一个角色从奔跑、停下、操作设备到再次移动,不同画格之间不仅要姿态变化自然,还要保持人物身份、服装结构和场景逻辑一致。HiDream-O1-Image 在这类任务中的表现,说明它已经开始从“图片生成工具”向“视觉生成工具”延展,具备进入故事板设计、内容策划、漫画制作和视频首帧生成等影视创作工作流的潜力。
此前,智象未来开源模型HiDream-I1上线24小时登顶Artificial Analysis榜单,图像编辑模型HiDream-E1.1进入图像编辑智能体*梯队,相关开源模型全球下载量超200万次。本次HiDream-O1-Image,以原生全模态架构创新实现性能跃迁并登顶,进一步验证了智象未来在底层模型架构上的持续创新能力。