LeCun的JEPA世界模型:大模型之外的另一条AGI路

LeCun的JEPA世界模型:大模型之外的另一条AGI路

_

杨立昆(Yann LeCun)离开Meta后继续推进的世界模型JEPA(全称Joint-Embedding Predictive Architecture),被他视为比大模型更有望通向通用人工智能的技术路径。这套框架的核心逻辑,可以理解为一个精简版的人脑认知模型。

为什么需要世界模型

当前主流的大语言模型依赖海量文本的“填词”训练,擅长模仿人类说话方式,却缺乏对物理世界的理解——你问它“把杯子从桌上推下去会怎样”,它可能给出看似合理但实际上违背物理常识的答案。LeCun认为,真正的智能体需要像人类和动物一样,理解世界的运作规律:苹果放手会落地、水杯倾斜水会洒出、推开一扇门需要施加特定方向的力。这种能力被他称为“世界模型”。

JEPA的核心机制

JEPA的架构分为三个步骤:

首先是“联合”,即同时处理当前状态x和对未来状态的预测y——x可以是视频的第一帧,y就是下一秒的画面;x是句子的前半段,y就是后半段。其次是“嵌入”,把具体的像素、文字等原始数据压缩为高层抽象表示,这一步是关键:通过降维,模型不再逐像素模仿,而是提炼出“这是一只奔跑的狗”“苹果在下落”这类核心概念。最后是“预测”,用抽象后的x去预测抽象后的y。

为什么预测要在抽象空间而非原始像素空间进行?LeCun的解释是,原始视频里像素变化受太多无关因素影响——光照角度改变、背景杂物移动都会干扰预测。而抽象层只保留语义信息,模型因此能学到真正有价值的因果关系。

快思考与慢思考

人类日常行为大多属于“模式1”快思考:不假思索地跨过水坑、接住飞来的球。JEPA模拟的就是这种能力——输入当前感知,输出最直接的行动。但遇到复杂局面,人类会切换到“模式2”慢思考,在脑内推演多种可能路径后再行动。LeCun认为两者都需要,但JEPA目前主要解决快思考问题。

截至目前,基于JEPA已衍生出I-JEPA(图片)、MC-JEPA(运动与内容)、V-JEPA(视频)、LLM-JEPA(文本)等多个变体,在各自领域取得了不错的效果,但距离真正构建通用世界模型仍有很长的路要走。

编注:材料为知乎万字长文,侧重技术原理解析与历史背景,信源未直接引用。内容以JEPA框架介绍为主,暂未涉及工程落地进展与效果评估数据。


SpaceX的AI卫星散热和辐射防护可行吗? 2026-06-12
SpaceX上市首日暴涨三成 太空板块其他个股却遭血洗 2026-06-13