LeCun的JEPA世界模型：大模型之外的另一条AGI路

杨立昆（Yann LeCun）离开Meta后继续推进的世界模型JEPA（全称Joint-Embedding Predictive Architecture），被他视为比大模型更有望通向通用人工智能的技术路径。这套框架的核心逻辑，可以理解为一个精简版的人脑认知模型。

为什么需要世界模型

当前主流的大语言模型依赖海量文本的“填词”训练，擅长模仿人类说话方式，却缺乏对物理世界的理解——你问它“把杯子从桌上推下去会怎样”，它可能给出看似合理但实际上违背物理常识的答案。LeCun认为，真正的智能体需要像人类和动物一样，理解世界的运作规律：苹果放手会落地、水杯倾斜水会洒出、推开一扇门需要施加特定方向的力。这种能力被他称为“世界模型”。

JEPA的核心机制

JEPA的架构分为三个步骤：

首先是“联合”，即同时处理当前状态x和对未来状态的预测y——x可以是视频的第一帧，y就是下一秒的画面；x是句子的前半段，y就是后半段。其次是“嵌入”，把具体的像素、文字等原始数据压缩为高层抽象表示，这一步是关键：通过降维，模型不再逐像素模仿，而是提炼出“这是一只奔跑的狗”“苹果在下落”这类核心概念。最后是“预测”，用抽象后的x去预测抽象后的y。

为什么预测要在抽象空间而非原始像素空间进行？LeCun的解释是，原始视频里像素变化受太多无关因素影响——光照角度改变、背景杂物移动都会干扰预测。而抽象层只保留语义信息，模型因此能学到真正有价值的因果关系。

快思考与慢思考

人类日常行为大多属于“模式1”快思考：不假思索地跨过水坑、接住飞来的球。JEPA模拟的就是这种能力——输入当前感知，输出最直接的行动。但遇到复杂局面，人类会切换到“模式2”慢思考，在脑内推演多种可能路径后再行动。LeCun认为两者都需要，但JEPA目前主要解决快思考问题。

截至目前，基于JEPA已衍生出I-JEPA（图片）、MC-JEPA（运动与内容）、V-JEPA（视频）、LLM-JEPA（文本）等多个变体，在各自领域取得了不错的效果，但距离真正构建通用世界模型仍有很长的路要走。

编注：材料为知乎万字长文，侧重技术原理解析与历史背景，信源未直接引用。内容以JEPA框架介绍为主，暂未涉及工程落地进展与效果评估数据。