人工智能最想删掉的视频，再不点进来看就没机会了

2025-09-10 16:00:05 阅览：296

【导语】前段时间世界人形机器人运动会爆火，赛场上机器人们状况百出，笑料不断。不过，在田径等项目中，也有“具身天公 Ultra”这样的优秀选手脱颖而出。为何人类幼童轻易掌握的奔跑，对机器人却困难重重？为何执着于人形机器人？这背后，是“具身智能”概念在引领我们重新审视“智能”本质，让我们一同走进这场智能探索之旅。

前段时间举行的世界人形机器人运动会上，机器人们各种“出洋相”的视频大家还印象深刻吧！没看到的请下滑欣赏起来，看过的就再看一遍！（无论看多少次都很想笑啊！）（多 gif 预警~）

古风小机器人来也

叠罗汉和再起不能

机器人撞人事件

哎呦这地儿是不是不平啊

我头呢我头呢

我倒了，大家加油

在田径、足球、拳击等项目中，最引人注目的无疑是百米短跑。当发令枪响，一台名为“具身天公 Ultra”的人形机器人从起跑线上冲出，它由北京人形机器人创新中心自主研发的机器人，最终以 21.50 秒的成绩夺冠。而在所有硅基运动员中，“天公 Ultra”是唯一一台采用全自主导航系统(tǒng)，全程无需人工遥控在赛场奔跑的选手。

宇树科技王兴兴赛后总结

相信大家在看完运动会中机器人的诸多洋相精彩表现之后，会产生一些疑问：

为什么(me)学(xué)会(huì)奔跑——这个人类幼童即可掌握的技能——对机器人而言如此困难？为什么不让轮胎机器人参赛，着重于“人形”机器人？

这些问题，将我们引向一个重新审视“智能”本质的概念：具身智能。这意味着 AI 试着从(cóng)虚(xū)拟(nǐ)的(de)数(shù)字空间回归物理现实，从抽象的符号处理走向与世界互动的真实存在。

莫拉维克悖论

要理解机器人奔跑的意义，我们必须首先面对人工智能领域一个基本难题，即 “莫拉维克悖论”（Moravec's Paradox）。

这是由人工智能和机器人学者所发现的一个和常识相左的现象，在 1980 年代提出，其核心是：人类所独有的高阶智慧能力只需要非常少的计算(suàn)能(néng)力(lì)，例如推理，但是无意识的技能和直觉却需要极大的运算能力。

如莫拉维克所说，要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚(shén)至(zhì)是不可能的。

莫拉维克曾经根据自己的研究，绘制了一张“人类能力景观图”。

在这张图中，被海洋所淹没的部分就是当时已经可以被人工智能和机器人所取代的工作，而随着海平面的上升，岸边、平原和高原的技能对AI来说难度(dù)逐(zhú)渐(jiàn)上(shàng)升(shēng)。

莫(mò)拉(lā)维(wéi)克悖论的根源来自于生物演化的漫长历史。人类引以为傲的抽象推理能力，如逻辑和数学，从演化的时间尺度上看，是最近几千年才发展出的新能力。莫拉维克将其形容为“人类思想最薄的一层表皮” 。

与之相反，感知和运动控制这些我们几乎不假思索就能完成的“简单”技能，是历经数亿年自然选择精心雕琢和优化的结果。大脑皮层中，有大量区域用于视觉、听觉、运动控制等感知与行动。我们低估了这些任务的复杂性，正是因为它们演化得非常高效，以至于大部分过程在我们无意识时就已完成了。

但随着深度学习、神经网络和传感器技术的发展，某些“莫拉(lā)维(wéi)克(kè)难(nán)题(tí)”已(yǐ)经(jīng)被(bèi)部(bù)分(fēn)攻(gōng)克，“具身智能”也逐渐在现实世界崭露头角。

具身智能

具身智能（Embodied Intelligence）是一种强调智能系统必须拥有物理身体，并通过这个身体与动态、复杂的真实环境进行实时交互，从而在交互中学习、优化并展现其智能的理论。

具身智体的典型架构

其实质是人工智能与机器人技术的深度融合：AI 为机器人提供“大脑”，使其具备感知、思考和决策的能力；而机器人则为 AI 提供“身体”，使其能够与真实世界互动，获取经验和知识。

AI 领域著名大佬李飞飞曾指出：“具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。”

具身智能的体系架构

早在 1950 年，艾伦・图灵发表了经典的《计算机器与智能》（Computing Machinery and Intelligence）一文，标志着人工智能理论的奠基。

在这篇论文的最后两个段落里，图灵展望了人工智能未来可能的两种发展途径。一种是比较抽象的、比如算术所需的智能，一种则是拥有感官、能学习甚至能说英语的智能。而后者，正是具身智能。

1986年，美国计算机科学家罗德尼・布鲁克斯从控制论角度出发，强调智能是具身化 (Embodied) 和情境化的。换言之，智能体必须拥有“身体”才能由虚拟世界进入到真实世界，并通过与真实世界的交互来发育或进化出智能。

1991 年，布鲁克斯提出了“行为智能”，认为智能系统应直接通过与环境互动来体现其高度的适应性，而非依赖内部模型。这一工作引导研究者从计算能力转向身体与环境的交互。

罗德尼・布鲁克斯

2023 年，英伟达创始人黄仁勋在半导体大会上指出，具身智能是能够理解、推理并与物理世界互动的智能系统，预示着其将成为人工智能的下一波浪潮。

2025 年，“具身智能”首次被写入政府工作报告，成为未来产业发展的重点方向之一。

今年举办的全球机器人马拉松、世界机器人大会、世界人形机器人运动会，都让最新的机器人乃至具身智能“幼儿”们一个亮(liàng)相(xiāng)的(de)机(jī)会(huì)。

图(tú)片(piàn)

没(méi)“断(duàn)奶(nǎi)”也(yě)可(kě)以(yǐ)来(lái)比(bǐ)赛(sài)！

具身(shēn)认(rèn)知(zhī)

如(rú)前(qián)文所(suǒ)言(yán)，图(tú)灵(líng)对人工智能未来的展望，除了具身智能，它的对立面则是我们更为熟悉的——离身智能（Disembodied Intelligence）。

像 ChatGPT 或 AlphaGo 这样的模型，就是离身智能(néng)的(de)典(diǎn)型(xíng)代(dài)表(biǎo)。它(tā)们(men)存(cún)在(zài)于(yú)服(fú)务(wu)器(qì)的(de)虚(xū)拟(nǐ)世(shì)界(jiè)中，处理的是抽象的符号数据（文字、图片、棋盘状态），能够输出信息，但无法直接作用于物理世界。

AlphaGo 虽然精于棋局推演，但面对真实的棋盘，它可能连一颗棋子都拿不稳。

但具身智能与离身智能并不相互排斥, 特别是在方法层面上, 包括深度学习、强化学习等方法都已成为解决离身智能和具身智能问题的重要工具。

具(jù)身(shēn)智(zhì)能(néng)的(de)核(hé)心(xīn)机(jī)制(zhì)，是(shì)感(gǎn)知(zhī)-行(xíng)动(dòng)循(xún)环(huán)。

这与传统 AI 线性的“输入数据-输出答案”模式截然不同。具身智能体在一个持续不断的闭环中运作：它通过传感器（如摄像头、触觉传感器）感知世界；这种感知信息经过处理，形成决策，并驱动执行器（如马达、机械臂）产生行动；行动改变了智能体自身以及环境的状态；这种改变又立刻被智能体感知到，形成新的输入，从而开始下一轮循环。

在这个循环中，感知与行动互为因果，智能体不再是被动的决策器，而是能够主动干预物理世界并实时适应变化的能动主体。

具身形态计算的典型信息论分析方法结构

这一循环，与认知科学中的具身认知不谋而合。

具身认知主张，人类的思维、感知、语言和情感等认知活动与身体(tǐ)的(de)物(wù)理(lǐ)结(jié)构(gòu)、感(gǎn)官(guān)体(tǐ)验(yàn)和(hé)动(dòng)作(zuò)密(mì)切(qiè)相(xiāng)关。认(rèn)知(zhī)不(bù)仅(jǐn)仅(jǐn)是(shì)大(dà)脑(nǎo)内(nèi)的(de)信(xìn)息(xi)处(chù)理(lǐ)，而(ér)是(shì)身(shēn)体(tǐ)与(yǔ)外(wài)部(bù)世(shì)界(jiè)动(dòng)态(tài)互(hù)动(dòng)的产物。其包含了几个概念：

1.具身认知：认知不是抽象的符号操作，是通过身体和环节的互动实现的。身体不仅是认知的工具，更是认知内容的塑造者。

2.感知-行动循环：认知过程不仅依赖大脑的计算，还与身体的动作和感官反馈形成动态循环。若感知和行动被人为分离，认知能力会显著下降。

3.身体形态：身体的物理结构和动作模式在认知中起着至关重要的作用，人类的思维和概念受到身体形态的深刻影响。比如“抓握”这一概念就是来源于人类手指形态。

4.情景化：认知活动并非孤立，而是嵌入在具体的身体和环境背景中的。同样的动作在不同文化中可能具有不同的涵义。

在生物学验证上，通过著名的“小猫实验”（kittens experiment），验证了视觉、发展和运动之间的关系。

图(tú)片(piàn)

科(kē)学(xué)家(jiā)把(bǎ)两(liǎng)只(zhǐ)小(xiǎo)猫(māo)放(fàng)进(jìn)了(le)圆(yuán)筒(tǒng)内(nèi)，圆(yuán)筒(tǒng)内(nèi)壁(bì)上(shàng)画(huà)着(zhe)竖(shù)条(tiáo)纹(wén)，两(liǎng)只(zhǐ)小(xiǎo)猫(māo)都(dōu)在(zài)圆(yuán)筒(tǒng)内(nèi)部(bù)绕(rào)圈(quān)，称(chēng)作(zuò)“小(xiǎo)猫(māo)旋(xuán)转(zhuǎn)木(mù)马(mǎ)”，得(de)到(dào)了(le)相(xiāng)同的视觉输入。但它们的区别是——第一只小猫是自己走的，第二只小猫则被放在与中心轴相连的盒子里，被盒子带着移动。

结果发现，主动移动的小猫能够发展出正常的感官-运动系统，而被动移动的小猫则表现出严重的感官(guān)-运(yùn)动(dòng)障(zhàng)碍(ài)。这(zhè)说(shuō)明(míng)了(le)自(zì)我(wǒ)运(yùn)动(dòng)与(yǔ)环(huán)境(jìng)主动(dòng)互(hù)动(dòng)在(zài)视(shì)觉(jué)感(gǎn)知(zhī)和(hé)协(xié)调(diào)的(de)关键作用。

随着新的具身认知的发展，认知科学也能帮助具身智能更好的描摹这个世界，认识这个世界。

竞争对手也可以抱一抱~

最后，让我们回到开头的世界人形机器人运动会，试想，为什么要用人形机器人？

（说起来，今年举办的机器人大会中，只有“运动会”的名字里加上了“人形”呢）

首先，我们的世界——从建筑、工具到社会规范——都是为人类的身体形态量身定做的。因此，制造人形机器人，拥有两只手两条腿，让它们能够无缝地融入我们的环境，是一个非常务实的选择。

人，不要阻挡我的跳舞之魂

其次，机器人学习现实世界中的技能，能够直接学习现成的人类行为。比如对机器人学习打打乒乓球，可以直接观察人类动作进行多模态学习，分析人类的技巧、速度、肌肉等等。

还有，人们对具有人形的机器人有更多亲近感，也能更好理解彼此的动作信号——比如点头、比 ok 等等。

当然，这些并不意味着非人形机器人的弱势。无论是宇树的四足机器人，还是场景赛中的分拣机器人，都以非人的方式呈现。根据具体的需要，能够以不同的形态更好地满足。

真正的、通用的、拥有常识并能适应我们这个混乱且不可预测的世界的智能，不可能在纯粹抽象的数字真空中诞生。它需要被具身化、它需要拥有一个身体，去与世界互动，去将其知识植根于物理经验，去在永不停歇的感知与行动的循环中学习和进化。

机器人，幸会

参考文献

[1]陈思维(2024). 具身认知研究进展综述.心理学进展, 14(1), 387-394. DOI: 10.12677/ap.2024.141054

[2]https://zhuanlan.zhihu.com/p/1920853960635450532

[3]https://www.simplypsychology.org/held-and-hein-1963.html

[4] Huaping Liu, Di Guo, and Angelo Cangelosi. 2025. Embodied Intelligence: A Synergy of Morphology, Action, Perception and Learning. ACM Comput. Surv. 57, 7, Article 186 (March 2025), 36 pages.

[5] https://www.zhihu.com/question/398460589

[6] https://news.qq.com/rain/a/20250821A03OGO00

[7] https://mp.weixin.qq.com/s/lZH4oM3WJPfpsFG8D6hrtA

[8] https://mp.weixin.qq.com/s/Sw6FPYlVM6DCWTCCInKgyA

[9] https://mp.weixin.qq.com/s/aNbIV7sa7G-97axStFtE7Q

策划制作

来源丨中科院物理所（id:cas-iop）

责编丨甄曦

审校丨徐来、张林林

本文封面图片及文内图片来自版权图库

转载使用可能引发版权纠纷