生数科技朱军：通用世界模型是连接数字世界与物理世界的桥梁

2026-03-20 14:17 · 网络　　　

3月19日，在中信证券举办的2026年春季资本市场论坛活动中，生数科技创始人、清华大学人工智能研究院副院长、ACM/IEEE/AAAI会士朱军教授发表题为《通用世界模型：连接数字世界与物理世界的桥梁》的主题演讲，系统阐述了生成式人工智能从“内容生成”迈向“物理世界”的关键技术路径。

他指出，随着统一模型架构逐步成型、数据范式持续完善，世界模型正迎来关键发展拐点，通用世界模型正在成为通向AGI（通用人工智能）的核心技术方向。

围绕这一方向，生数科技率先布局通用世界模型。于2025年7月和12月，公司联合清华大学相继发布了*基于视频大模型的具身基础模型Vidar和统一架构的通用基座世界模型Motus。相较国际领先的 VLA 模型 Pi0.5 实现约40%的成功率提升，并率先发现了通用世界模型在多种具身任务上的泛化能力。

会上，朱军系统介绍了生数科技的通用世界模型战略布局。以基座世界模型（Foundation World Model）为核心底层，向上延伸出覆盖数字空间与物理空间的双轨技术体系。

基座世界模型基于全球首创的U-ViT架构，积累视觉、听觉、触觉等多模态信息，构建对世界的统一认知与建模能力，为上层应用提供统一的智能底座。

在数字空间，生数科技基于世界生成模型（WGM）打造视频大模型产品 Vidu。Vidu生成模型聚焦单时点模拟世界，赋能AI在数字世界的生产力。流式生成模型，聚焦多时点模拟世界，实现实时陪伴和交互。Vidu显著提升了数字内容的生产效率，最终实现数字世界的AGI。

在物理空间，生数科技基于世界行动模型（WAM）构建统一世界模型产品Motus。Motus作为真实世界具身智能的“大脑”，致力于解决传统具身智能链路割裂、数据稀缺、泛化能力弱等核心痛点，可实现真实世界下的零样本泛化与跨本体适配，推动机器人从“模块化执行”向“统一智能体”跃迁，最终实现物理世界的AGI。

这一布局贯通了从“理解世界”到“生成世界”再到“行动于世界”的完整路径，使通用世界模型真正成为连接数字与物理世界的桥梁。

生成式AI迈入新阶段：从“生成内容”到“理解世界”

生成式人工智能正在进入新的发展阶段，其核心目标不再局限于内容生成，而是刻画并理解物理世界的复杂分布。

“生成能力本身正成为理解世界的重要基础，如果不能生成，就无法真正理解。”朱军指出。

从概率图模型到深度学习，再到大规模预训练、Transformer与扩散模型的兴起，技术路径不断演进，持续逼近通用人工智能的能力边界。朱军表示，生成式AI的演进，本质上是对世界建模能力的不断增强。

视频：连接数字与物理世界的关键载体

在这一过程中，AI的发展重心正从语言进一步延展至视频。

“相比语言，视频天然包含更丰富的时空信息与物理规律，是连接数字世界与物理世界的关键载体。”朱军指出，“视频不仅是内容形式，更是世界运行规律的记录方式。”

同时，视觉在人的认知体系中占据主导地位，机器要真正理解世界，也必须以视觉为核心进行学习。但仅依赖大语言模型仍难以构建完整的智能闭环。真正的智能系统需要具备从经验中学习、对未来进行预测并执行行动的能力，这一过程依赖与物理世界的持续交互。

数据破局：以视频为核心构建数据金字塔

在数据层面，具身智能长期面临“数据墙”：真机数据稀缺、成本高、难以复用。

针对这一问题，以视频为核心的数据路径正在成为行业共识。通过构建覆盖互联网视频、人类操作视频、仿真数据与机器人数据的多层数据体系，可以系统性挖掘视频中蕴含的物理交互信息。

“视频是目前规模最大、信息最丰富的数据形态，充分利用视频为主的可扩展、异构数据，是构建通用世界模型最可行的路径”朱军表示。

通过引入“隐动作（Latent Action）”等方法，模型可以将视频中的运动信息映射到动作空间，在缺乏大量真实机器人数据的情况下，依然具备有效的行动能力。

世界模型：从“模块拼接”走向“统一架构”

在上述背景下，通用世界模型正被视为实现通用人工智能的重要路径。

其核心目标是构建统一的智能系统，使AI能够完成从“观察世界”到“预测世界”，再到“在世界中行动”的完整闭环。然而，当前行业技术路径仍较为割裂：VLA模型侧重行为模仿，传统世界模型侧重未来预测，逆动力学模型聚焦动作生成，各自仅覆盖部分能力链路。

“世界模型不应是模块拼接，而需要像人一样，统一架构实现多种认知能力。”朱军表示。通用世界模型就是要在同一模型中融合感知、推理、预测与行动能力，构建类似人类“大脑”的整体智能结构。

统一世界模型Motus：开启具身智能多任务泛化与规模化演进新范式

基于上述数据与架构路径，生数科技联合清华大学开源的统一世界模型 Motus，实现了多模态能力的系统性整合。

在模型架构上，Motus基于 UniDiffuser 统一建模框架，通过跨模态先验融合（Cross-modal Priors Fusion），将视觉语言知识（VLM）、视频动态知识（Video Generation Model）与动作技能知识（Action Expert）整合进同一模型，实现语言、视频与动作的统一表达与生成，构建真正意义上的统一世界模型。

在数据利用与规模扩展方面，Motus展现出显著优势。在数据规模扩展实验（Data Scaling）中，相较国际领先的VLA模型 Pi0.5，Motus能够从更广泛的异构数据中学习，并有效融合预训练基座模型中的多模态先验能力。在50个任务的平均成功率上，Motus实现了35.1%的*提升，同时在相同性能水平下展现出13.55倍的数据效率。

在任务规模扩展实验（Task Number Scaling）中，随着任务数量增加，Motus的平均成功率持续提升，而对比模型Pi0.5则随任务复杂度提升出现性能下降。最终，Motus实现了37%的*成功率优势，体现出更强的多任务泛化能力。

更值得注意的是，Motus率先揭示了具身智能Scaling的新维度——多任务泛化能力曲线。这一曲线为具身基座模型提供了关键的“北极星指标”，其演进路径与语言模型的发展高度一致，也呼应了 GPT-2 所提出的“Language Models are Unsupervised Multitask Learners”的核心思想，被喻为具身智能的“GPT2”时刻。

在长程、多步骤的复杂真机任务中，Motus 进一步呈现出接近人类水平的决策逻辑与执行稳定性，需要强调的是，这些都不是简单的单步指令，而是典型的长程、多步骤任务，并且由模型端到端完成，而非依赖传统的“快慢双系统”拆分。

拐点已近：通用世界模型能力将持续跃迁

正如图灵奖获得者Richard Sutton 在《苦涩的教训》中所指出的，“利用计算能力的通用方法最终是最有效的，而且优势巨大”。这一判断正在AI发展路径中不断得到验证。

朱军表示，以视频为核心的可扩展异构数据体系，是构建通用世界模型最可行的路径，并逐步形成行业共识。随着统一模型架构、数据范式与训练体系的持续成熟，通用世界模型的技术路径日益清晰，行业正进入由规模驱动的能力跃迁阶段。

在这一趋势下，从视频生成走向世界模型，正成为AI从“理解世界”迈向“改变世界”的关键路径。随着相关技术不断演进，通用世界模型将加速走向物理世界，成为连接数字世界与物理世界的桥梁。

（免责声明：本文转载自其它媒体，转载目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。请读者仅做参考，并请自行承担全部责任。）