世界模型的门槛，谷歌可能迈过去了

Google可能要放大招了。

就在Google I/O 2026开幕前夕，两条由Google尚未发布的新视频模型Gemini Omni生成的视频悄悄流出。

没有任何官方预告，没有任何发布会造势，整个社交媒体都炸翻了。

一条视频是一位教授站在黑板前，手持粉笔，一步步推导三角恒等式；

另一条是两名男士坐在海边高档餐厅，安静地吃意大利面。

Reddit和X的评论区，铺天盖地的都是同一句话："这不可能是现有的技术水平。"

两个看似普通的日常场景，为什么让见惯了AI生成内容的技术圈集体侧目？

令人震惊的视频

先说“教授黑板讲课”视频，生成它只用了一条prompt：

"一位教授在传统黑板上写出三角恒等式的数学证明，同时用语言解释他当前正在推导的步骤。"

一条指令，没有多轮对话，没有分步骤控制。

出来的结果是，教授手持粉笔，逐步写下公式，同时开口讲解，画面流畅，板书工整。

听起来好像平平无奇。

但如果你了解当前视频生成模型的技术边界在哪里，就会明白Gemini Omni同时做到了三件事，而这三件事，以前从来不会同时出现。

第一，推理对了。

黑板上的证明过程在数学上是成立的，不是视觉上长得像公式的符号堆砌，而是数学意义上真实有效的推导。

要做到这一点，模型至少要在token预测之外，具备一定的符号推理能力（symbolic reasoning）。

即知道下一步应该出现什么公式，而不是随机采样一个看起来像数学的图案。

语义准确性叠加在视觉生成之上，正是大多数视频模型会在这类测试中失败的原因。

第二，空间关系对了。

评测者描述，粉笔书写时的手部和手臂动作"读起来是自然的"，黑板上的方程式清晰可辨。

手部，是AI视频生成里公认最容易穿帮的地方。

手指数量错误、关节扭曲、与物体的空间关系失真，这是行业里几乎每一代视频模型都栽过的坑。

一支粉笔被正确握持，在黑板上留下有意义的笔迹，手腕的力道、落笔的角度，都在合理的范围内。

这一关，比画一只正常的手还要难，因为手在这里还要和黑板、粉笔、书写行为，形成完整的空间逻辑。

第三，时序对了。

这是最被低估的一件事。

教授写下某个推导步骤的同时，口头讲解的正是这个步骤，板书进度与语音内容保持同步。

这不只是音视频的帧级对齐（frame-level alignment），而是视觉事件、语义事件、时间事件三者之间的跨模态协调。

任何一个维度的理解出现偏差，结果就会是"手在写A，嘴在讲C"。

这种错位，人类观众一眼就能感知到。

如果这三件事只是分别做到，我们可以认为是三个专项模块拼在一起的结果。

但三者同时成立、彼此协调，更可能是模型在某个表征层面上，已经对"教授在黑板上讲课"这件事形成了整体性的语义理解。

换句话说，它知道这件事在现实世界里是什么样子，知道其中各个元素之间的约束关系。

这也是为什么"世界模型"这个词，会在这条视频流出后开始被频繁提及。

在黑板视频流出的同时，还有另一条视频一起曝光：两名男士在海边高档餐厅吃意大利面。

这个场景的选择，不是随机的。

2024年，一段AI生成的"Will Smith吃意大利面"视频在网上疯传。

画面里的手指数量不对，面条像活物一样扭动，叉子和嘴的空间关系完全失控。

那段视频成了早期AI视频生成能力的耻辱柱。

而这一次，Gemini Omni生成的结果，有用户评论是"令人难以置信地真实"。

这背后考验的，是模型对刚体与柔性体之间动态交互的建模能力：

叉子是硬的，面条是软的，两者在接触时会产生形变，而形变的方式必须符合现实世界里的物理直觉。

这正是早期生成模型在隐式物理模拟（implicit physics simulation）上的致命短板。

一个模型，在两条视频里，分别碰到了视频生成最难的两类问题：

一类是符号、语音与画面的同步，另一类是人与物体、刚体与柔性体的交互，并把这些问题推进到一个更可用的状态。

Gemini Omni展示的，更像是一个对世界有着更深理解的基座模型。

Gemini Omni的冲击

截至目前，Google还没有发布Gemini Omni的任何技术文档，也没有公开任何模型参数或基准测试数据。

但关于Gemini Omni的架构，目前外界存在三种解读。

最保守的说法是，Omni只是Veo的品牌重命名，底层推理引擎没有根本变化；

第二种说法是，Omni是在Gemini架构下重新训练的全新视频模型，与Veo并行但独立；

第三种说法最激进，认为Omni是一个真正意义上的原生多模态统一模型，在单一架构里原生处理文字、图像、视频和音频。

基于以上两段视频的表现，第三种解读反而像是"Omni"这个命名最合理的指向，毕竟在拉丁语中，"omnis"意味着所有。

如果Omni真正打通了多模态链路，模型竞争的焦点就会发生根本性的转变。

不再是谁能拍出更像电影的画面，而是谁是内容创作者的唯一目的地。

虽然现在还不能说Gemini Omni已经是世界模型，但它至少说明，视频生成正在逼近世界模型要解决的问题：

如何在时间中维持一个可解释、可编辑、可连续推演的场景。

产品层面的冲击同样不容忽视。

今天一条AI视频的生产链路，通常需要串联语言模型写脚本、图像模型做故事板、视频模型做动画渲染、再加外部剪辑软件做后期处理。

每一次跨工具切换，都意味着信息损耗和风格漂移。

一旦Gemini Omni对话式视频编辑成立，这条链路就可能被一个对话窗口替代了。

更关键的是，如果Omni被放入Gemini入口，并与Gmail、Google Docs、YouTube、Android深度打通，这是字节Seedance、快手Kling在分发层面根本无法复制的生态优势。

技术能力决定上限，生态决定规模。

Gemini Omni真正的威胁，或许不在于它今天生成的视频有多好，而在于它把视频生成能力放在了一个竞争对手根本进不去的地方，后者对前者几乎构成降维打击。

世界模型时刻或许来临

过去几年，生成式AI的进化路径相对清晰。

语言模型学会了读和写，图像模型学会了看和画，视频模型学会了动。

每一个模态都在自己的赛道上快速迭代，但它们之间始终存在一道隐形的墙。

模型知道文字，也知道图像，但它不理解文字和图像之间、声音和动作之间、逻辑和画面之间的约束关系。

如果说ChatGPT时刻定义了语言的边界，Sora时刻定义了视频的边界，那Gemini Omni指向的，很可能是第一个真正意义上的"世界模型时刻"。

模型第一次开始理解，模态与模态之间在现实世界里的约束关系，而不只是分别生成它们。

这是一次质的飞跃。

当然，Gemini Omni是否真正实现了这一点，在5月19日Google I/O 2026大会之前，没有人能给出确定的答案。

但泄露出来的视频，给出的信号已经足够有力。

接下来Google会在台上说什么，我们很快就会知道。

【本文由投资界合作伙伴微信公众号：世界模型工场授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

世界模型的门槛，谷歌可能迈过去了

AI投资人解读

相关资讯

「花生健康」完成新一轮融资，从连锁医疗向AI驱动的数字健康平台跃迁

物理AI火了，我的一些新思考

AI掉队，腾讯猛追

如祺出行首度公开AI数据资产版图，以真实出行数据切入具身智能、世界模型赛道

别让AI抓住你的把柄，它可能真会威胁你

OpenAI和苹果的「联盟」即将破裂

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP