
2026 年 2 月 12 日,普林斯顿大学机械与航空航天工程系副锤真金不怕火 Anirudha Majumdar 在 X 上发表了一篇长博文,直面一个正在机器东谈主学界升温的中枢争论:为具身智能构建寰宇模子,到底应不应该去“预测像素”?
Majumdar 是普林斯顿机器东谈主谈论倡议(Princeton Robotics Initiative)的和谐主任,同期在 Google DeepMind 担任兼职拜谒谈论科学家。他的谈论聚焦于让机器东谈主在以东谈主为中心的环境中安全、可靠地泛化到新场景,曾获斯隆谈论奖(Sloan Fellowship)、两次 Google 锤真金不怕火谈论奖,以及《海外机器东谈主谈论期刊》(IJRR)年度最好论文等荣誉。

他本东谈主亦然客岁 12 月 Google DeepMind 那篇激发正常存眷的 Veo 机器东谈主政策评估使命的协调者之一,该谈论展示了如何用前沿视频生成模子 Veo 行动机器东谈主政策的“寰宇仿真器”,通过 1,600 屡次着实寰宇评估考据了其灵验性。
在著述中,Majumdar 暗示当前机器东谈主边界的寰宇模子确凿等同于视频生成模子,这条蹊径在意见恣意性、评估便利性、交易推能源等方面领有谢却低估的短期上风;但 Yann LeCun 倡导多年的潜辞寰宇模子(以 JEPA 架构为代表)在万古域操办上更具远景,可能在五年傍边的时分圭臬上成为关节组件。两者并非你死我活的替代关联,更可能走向协同。
以下是这篇博文的全文编译。
机器东谈主的寰宇模子
在机器东谈主学界,一个大致的共鸣似乎正迷漫在空气中:异日的通用政策将开辟在“寰宇建模”的配方之上,而非迄今为止占主导地位的 VLM(Vision-Language Model,视觉言语模子)骨架有规画。
论点如下:VLM 莫得被显式地考试来预测异日,因此在几何、空间和物理推理才智上,也等于预测动作缜密成果所需的那类才智并不可靠。比拟之下,寰宇模子允许机器东谈主“思象”异日以进行操办,举例:(1)生成一段思象中见效试验的视频,再用逆能源学模子忖度所需动作;或者(2)胜利使用一个以动行动要求的寰宇模子来优化操办。
2026 年头的机器东谈主学:寰宇模子=视频模子
在 2026 年头,机器东谈主边界的寰宇建模由视频寰宇模子主导,即那些被考试来预测异日视频帧(以文本以及潜在的动行动要求)的生成式模子。这些模子开辟在视频建模边界雄壮逾越的基础之上:在互联网边界数据上考试的基于扩散的架构,或者生成惊东谈主传神的视频,包含复杂的物理交互,举例来自 Veo、Cosmos 和 Wan 的视频。
仅在往时一年中,咱们就如故看到经由机器东谈主数据微调的视频模子或者试验政策评估、数据生成和推理时经餬口成;有关综述可参阅文件[1]。就我个东谈主而言,参与 Veo 的政策评估使命提供了一次雄壮的认识更新,看到如下所示的视频模子“仿真”,让我敬佩视频模子终于到了不错在机器东谈主边界大展技艺的时刻。
视频模子的挑战
尽管收尾令东谈主激越,当前总共用于机器东谈主的视频模子皆受到团结组幻觉问题的困扰:物体虚构复制、谈听途说、虚构灭绝,或者在自愿地或在被遮拦后重新出当前发生形变。
此外,万古域生成是一个紧要挑战:当前机器东谈主边界的视频模子很难在高出 20-30 秒之后仍能产出高质地的生成收尾。
潜辞寰宇模子:不要预测像素
从直观上看,视频建模关于寰宇模子而言似乎是一个无谓要塞落索的任务。预测布景中树叶理解的像素级细节,或者预测行将出现在我办公室门口的东谈主的精准面部特征,明显是莫得必要的。
{jz:field.toptypename/}咱们不错转而构建一个潜辞寰宇模子(latent world model),只预测环境的某些特征。具体来说,通过预测可预测之物,咱们不错将表征才智劝诱在着实要紧的事情上,而不是那些细枝小节,比如在特定光照要求下物体的精准外不雅。
Yann LeCun 多年来如故额外有劲地发扬了这一论点(参见他在普林斯顿机器东谈主筹商会上的演讲)。他在 Meta 和 NYU 的团队开发了多种神色的 JEPA(Joint-Embedding Predictive Architecture,和谐镶嵌预测架构),这种架构学习不雅测的潜在表征,以预测其他(举例异日)不雅测的表征。
V-JEPA 2 展示了这种自监督学习如何涌现出有用的视频特征。此外,该使命还展示了模子的动作要求版块如何通过在推理时优化动作序列来完了机器东谈主操办。
潜辞寰宇模子的论点在万古域任务上尤其有劝服力。预测寰宇在异日 10-20 秒内如安在像素层面演化似乎还说得往时,但将这一圭臬推广到分钟或小时级别,既极其落索,又实足莫得必要。
为什么视频模子将在短期内胜出
在构兵视频模子之前,开云app官方最新下载我曾被上述潜辞寰宇模子的论点所劝服;只预测寰宇显耀特征的极简主张要领照实很有招引力。然则,我思要论证的是,视频建模在本事和试验上有一些不应被低估的显耀上风。这些上风在一年前对我来说并不可想而知,我但愿在这里把它们明确写出来能对其他东谈主有所匡助。
意见上的恣意性。视频建模的任务是明确无歧义的:预测异日帧。访佛于 LLM(Large Language Model,大言语模子)的下一个 token 预测,一个了了的监督信号不错为下贱任务带来细致的特征,以及诸如物体分割、视频裁剪和视觉推理等涌现才智。
这与 JEPA 变成清醒对比:预测可预测之物这一任务并非实足指定的(not fully specified),若是完了失当会导致表征坍缩——构建一个可预测镶嵌的最通俗花式等于让它成为常数。
了了的评估规画。对视频模子进行爬坡优化(hill-climbing)是快言快语的。有按序规画(如 LPIPS 或 FID)不错用来评估视频生成的质地。JEPA 则否则,它优化的亏蚀函数并不一定与下贱性能有关(不外最近的 LeJepa 论文在这方面展现了一些积极迹象)。
推理时缩放与考据器。视频模子允许 VLM 被胜利用作考据器。通过生成多段视频并用 VLM 打分,咱们不错过滤掉不着实或低质地的生成收尾。这提供了一个恣意的推理时缩放配方。
视频模子赋能政策评估。视频模子不错充任机器东谈主政策的完好意思仿真器。为了试验闭环 rollout,仿真器的输出必须与政策的输入匹配。关于视觉理解截至(visuomotor control),这就要求生成完好意思的图像(除非政策被动在潜辞寰宇模子的潜在空间中吸收输入)。
视频模子与图像裁剪器的自然组合。视频模子不错给与裁剪后的帧行动输入。正如咱们在 Veo 使命中所展示的,这提供了一个恣意的配方,用于在散布外(out-of-distribution)场景中进行政策评估。
着实寰宇的不雅测不错被裁剪(举例引入新物体或布景),然后用于要求化政策 rollout。不错思象,访佛的政策也能用于视频模子在散布外场景中的数据生成(访佛于 DreamGen)。
雄壮的交易激励。复旧视频模子的主要论点本色上是一个非本事性的。开发好的视频生成模子濒临着雄壮的交易压力。从外交媒体愚弄到电影制作,视频模子将以孤独于机器东谈主边界的速率快速发展。
咱们如故反复看到这部电影的剧情,从用于游戏的深度相机,到用于智高手机的 IMU(Inertial Measurement Unit,惯性测量单位),再到用于 NLP(Natural Language Processing,)的 LLM——因孤独交易原因开发的本事,最终翻新了机器东谈主学。相似的事情很可能也会发生在视频模子身上。
在近期(2-3 年),我展望视频模子将不息行动机器东谈主寰宇建模的主导力量。尤其是关于短时域操作任务,这仍然是现在机器东谈主学大部分谈论的北极星,我展望上述上风将高出潜辞寰宇模子的潜在收益。
JEPA 会在恒久胜出吗?
JEPA 用于机器东谈主的中枢未解本事问题是:JEPA 学到的"可预测特征"是否等同于对机器东谈主有用的特征?可预测的特征自身并不一定有用——咱们老是不错预测阿谁将任何图像映射为常数的特征。然则,DINO 的存在提供了一个强有劲的笔据,它不错说是 JEPA 作风自监督学习最大的见效案例。
DINO 特征在正常的下贱视觉任务中获得了来源进的收尾,如分割、深度预测和物体检测。访佛的收益能否在机器东谈主寰宇建模中完了,仍然是一个绽放问题。
为了超越视频模子,JEPA 还需要克服我上头强调的一些交易压力。然则,LeCun 的 AMI 初创公司似乎有可能积存有余的资源来跨越这一拦阻,并展示 JEPA 辞寰宇建模方面的威力。
若是让我在节略 5 年的时分线潦倒注,我会押注 JEPA 成为机器东谈主寰宇模子的关节构成部分。我怀疑,一朝咱们在基础操作手段上获得进展,高出几秒的时分跨度将着实驱动在机器东谈主学中变得要紧,届时 JEPA 在操办方面的上风应该会泄露出来。
然则,基于上一节强调的原因,我不合计 JEPA 会一双一地替代视频模子。率先,JEPA 和视频模子不错协同使命。事实上,咱们如故看到了将两者结合的使命,举例用潜辞寰宇模子在推理时校阅视频模子。此外,JEPA 的表征学习标的也不错与视频重建标的同期愚弄。临了,关于政策评估等用例,视频生成有额外明确的上风(举例使用图像裁剪来生成场景变体)。
无论事情最终如何发展,这皆是一个额外欢快东谈主心的时刻,不同的实体正不才注不同的蹊径,还有一些根人性的绽放问题恭候贬责。
参考贵府:
1.https://x.com/Majumdar_Ani/status/2021242532517040560
2.Mei et al., 2026, \"Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions\".
运营/排版:何晨龙

备案号: