具身智能为何跳过传统控制这一步

机器人行业为什么突然都在押注具身智能？这个问题背后其实是一次方法论的根本切换。

传统机器人开发的逻辑是「建模-感知-规划-控制」，工程师需要先对环境和任务建立精确的物理数学模型，再通过感知、路径规划和运动控制一步步执行。它的核心优势是把单件事做到极致——波士顿动力的机器人在运动控制上已经是传统方法的巅峰。但这套路径的问题在于泛化能力极弱：感知层一个小误差传到控制层可能放大成灾难性失误；一套系统能把1种任务做到99%，却很难把1000种日常杂务都做到及格线。

具身智能则是直接端到端：用Transformer架构、扩散模型、强化学习，让机器人从图像直接输出动作，跳过了中间的建图和规划步骤。这个思路像极了自动驾驶从L0直接跳到L2端到端，而不是先走L4那套「先建图、再感知、再规划」的路线。驱动这一跳跃的直接原因，是L4方法在机械臂场景里根本不work——三维空间太复杂，corner case（边缘情况）无法靠人工规则补全，而模仿学习在2023-2024年的突破证明了「让机器人直接学人的动作」这条路走得通。

大语言模型的爆发是这场变革的关键催化剂。它把机器人最头疼的「高层语义理解与任务拆解」问题基本解决了：给定「去冰箱拿一瓶冰可乐」这样的模糊指令，大模型直接拆解成「移动→开门→识别→抓取→关门」的动作序列，工程师不再需要手写代码定义每一步的边界条件。于是研究的核心问题从「怎么控制稳定」变成了「怎么理解任务、怎么泛化、怎么适应未知环境」。

但这种跳跃并非没有代价。大量AI背景的研究者涌入机器人领域后，发现真实物理世界的难度远超纯视觉或NLP任务——电机发热、状态估计漂移、接触碰撞动力学的不连续性，这些传统控制工程里的硬骨头并没有消失，只是暂时被大模型的上层光环遮住了。行业里也出现了「demo很好看，真机一碰就炸」的批评。具身智能的本质，是把传统控制「骑」在底下，它需要的不是纯粹的AI人才，而是既懂动力学与实时控制、又懂机器学习的新一代工程师。

编注：材料为知乎问答帖，多位从业者从技术路线、行业趋势、团队能力等角度展开讨论，主线为具身智能的技术方法论演变；部分内容含批评性判断，读者可兼听。