旗下矩阵

  • 投资界
  • 天天IPO
  • 解码LP
  • 并购
  • 前哨
  • 投资界AI

世界模型的门槛,谷歌可能迈过去了

Google I/O 2026开幕前夕,两条由新视频模型Gemini Omni生成的视频流出,展示出强大能力,引发对其架构的猜测,或带来模型竞争焦点转变。
·微信公众号:世界模型工场世界模型工场

AI投资人解读

· Google尚未发布的新视频模型Gemini Omni生成的两条视频流出,引发关注。其在“教授黑板讲课”视频中做到推理、空间关系及时序正确,“餐厅吃意大利面”视频展示出对刚体与柔性体交互的建模能力,表现远超现有模型。
· 目前对Gemini Omni架构有多种解读,若其打通多模态链路,将改变模型竞争焦点,还会带来产品层面冲击。
总结:Gemini Omni展示出强大能力,虽架构不明,但可能引发行业变革,具有较高投资潜力,不过需关注其技术细节及未来发展走向。内容由AI生成,仅供参考

Google可能要放大招了。

就在Google I/O 2026开幕前夕,两条由Google尚未发布的新视频模型Gemini Omni生成的视频悄悄流出。

没有任何官方预告,没有任何发布会造势,整个社交媒体都炸翻了。

一条视频是一位教授站在黑板前,手持粉笔,一步步推导三角恒等式;

另一条是两名男士坐在海边高档餐厅,安静地吃意大利面。

Reddit和X的评论区,铺天盖地的都是同一句话:"这不可能是现有的技术水平。"

两个看似普通的日常场景,为什么让见惯了AI生成内容的技术圈集体侧目?

令人震惊的视频

先说“教授黑板讲课”视频,生成它只用了一条prompt:

"一位教授在传统黑板上写出三角恒等式的数学证明,同时用语言解释他当前正在推导的步骤。"

一条指令,没有多轮对话,没有分步骤控制。

出来的结果是,教授手持粉笔,逐步写下公式,同时开口讲解,画面流畅,板书工整。

听起来好像平平无奇。

但如果你了解当前视频生成模型的技术边界在哪里,就会明白Gemini Omni同时做到了三件事,而这三件事,以前从来不会同时出现。

第 一,推理对了。

黑板上的证明过程在数学上是成立的,不是视觉上长得像公式的符号堆砌,而是数学意义上真实有效的推导。

要做到这一点,模型至少要在token预测之外,具备一定的符号推理能力(symbolic reasoning)。

即知道下一步应该出现什么公式,而不是随机采样一个看起来像数学的图案。

语义准确性叠加在视觉生成之上,正是大多数视频模型会在这类测试中失败的原因。

第二,空间关系对了。

评测者描述,粉笔书写时的手部和手臂动作"读起来是自然的",黑板上的方程式清晰可辨。

手部,是AI视频生成里公认最容易穿帮的地方。

手指数量错误、关节扭曲、与物体的空间关系失真,这是行业里几乎每一代视频模型都栽过的坑。

一支粉笔被正确握持,在黑板上留下有意义的笔迹,手腕的力道、落笔的角度,都在合理的范围内。

这一关,比画一只正常的手还要难,因为手在这里还要和黑板、粉笔、书写行为,形成完整的空间逻辑。

第三,时序对了。

这是最被低估的一件事。

教授写下某个推导步骤的同时,口头讲解的正是这个步骤,板书进度与语音内容保持同步。

这不只是音视频的帧级对齐(frame-level alignment),而是视觉事件、语义事件、时间事件三者之间的跨模态协调。

任何一个维度的理解出现偏差,结果就会是"手在写A,嘴在讲C"。

这种错位,人类观众一眼就能感知到。

如果这三件事只是分别做到,我们可以认为是三个专项模块拼在一起的结果。

但三者同时成立、彼此协调,更可能是模型在某个表征层面上,已经对"教授在黑板上讲课"这件事形成了整体性的语义理解。

换句话说,它知道这件事在现实世界里是什么样子,知道其中各个元素之间的约束关系。

这也是为什么"世界模型"这个词,会在这条视频流出后开始被频繁提及。

在黑板视频流出的同时,还有另一条视频一起曝光:两名男士在海边高档餐厅吃意大利面。

这个场景的选择,不是随机的。

2024年,一段AI生成的"Will Smith吃意大利面"视频在网上疯传。

画面里的手指数量不对,面条像活物一样扭动,叉子和嘴的空间关系完全失控。

那段视频成了早期AI视频生成能力的耻辱柱。

而这一次,Gemini Omni生成的结果,有用户评论是"令人难以置信地真实"。

这背后考验的,是模型对刚体与柔性体之间动态交互的建模能力:

叉子是硬的,面条是软的,两者在接触时会产生形变,而形变的方式必须符合现实世界里的物理直觉。

这正是早期生成模型在隐式物理模拟(implicit physics simulation)上的致命短板。

一个模型,在两条视频里,分别碰到了视频生成最难的两类问题:

一类是符号、语音与画面的同步,另一类是人与物体、刚体与柔性体的交互,并把这些问题推进到一个更可用的状态。

Gemini Omni展示的,更像是一个对世界有着更深理解的基座模型。

Gemini Omni的冲击

截至目前,Google还没有发布Gemini Omni的任何技术文档,也没有公开任何模型参数或基准测试数据。

但关于Gemini Omni的架构,目前外界存在三种解读。

最保守的说法是,Omni只是Veo的品牌重命名,底层推理引擎没有根本变化;

第二种说法是,Omni是在Gemini架构下重新训练的全新视频模型,与Veo并行但独立;

第三种说法最激进,认为Omni是一个真正意义上的原生多模态统一模型,在单一架构里原生处理文字、图像、视频和音频。

基于以上两段视频的表现,第三种解读反而像是"Omni"这个命名最合理的指向,毕竟在拉丁语中,"omnis"意味着所有。

如果Omni真正打通了多模态链路,模型竞争的焦点就会发生根本性的转变。

不再是谁能拍出更像电影的画面,而是谁是内容创作者的唯 一目的地。

虽然现在还不能说Gemini Omni已经是世界模型,但它至少说明,视频生成正在逼近世界模型要解决的问题:

如何在时间中维持一个可解释、可编辑、可连续推演的场景。

产品层面的冲击同样不容忽视。

今天一条AI视频的生产链路,通常需要串联语言模型写脚本、图像模型做故事板、视频模型做动画渲染、再加外部剪辑软件做后期处理。

每一次跨工具切换,都意味着信息损耗和风格漂移。

一旦Gemini Omni对话式视频编辑成立,这条链路就可能被一个对话窗口替代了。

更关键的是,如果Omni被放入Gemini入口,并与Gmail、Google Docs、YouTube、Android深度打通,这是字节Seedance、快手Kling在分发层面根本无法复制的生态优势。

技术能力决定上限,生态决定规模。

Gemini Omni真正的威胁,或许不在于它今天生成的视频有多好,而在于它把视频生成能力放在了一个竞争对手根本进不去的地方,后者对前者几乎构成降维打击。

世界模型时刻或许来临

过去几年,生成式AI的进化路径相对清晰。

语言模型学会了读和写,图像模型学会了看和画,视频模型学会了动。

每一个模态都在自己的赛道上快速迭代,但它们之间始终存在一道隐形的墙。

模型知道文字,也知道图像,但它不理解文字和图像之间、声音和动作之间、逻辑和画面之间的约束关系。

如果说ChatGPT时刻定义了语言的边界,Sora时刻定义了视频的边界,那Gemini Omni指向的,很可能是第 一个真正意义上的"世界模型时刻"。

模型第 一次开始理解,模态与模态之间在现实世界里的约束关系,而不只是分别生成它们。

这是一次质的飞跃。

当然,Gemini Omni是否真正实现了这一点,在5月19日Google I/O 2026大会之前,没有人能给出确定的答案。

但泄露出来的视频,给出的信号已经足够有力。

接下来Google会在台上说什么,我们很快就会知道。

【本文由投资界合作伙伴微信公众号:世界模型工场授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。