首次写入政府工作报告!这个科技新词“具身智能”到底是什么?
2025-03-14 16:31:39 阅览:473
在2025年3月5日第十四届全国人民代表大会第三次(cì)会(huì)议(yì)上(shàng)的(de)政(zhèng)府(fǔ)工(gōng)作(zuò)报(bào)告(gào)中(zhōng),特(tè)别(bié)提(tí)到(dào)了(le)“具(jù)身(shēn)智(zhì)能(néng)”。

图(tú)片(piàn)截(jié)自(zì)中(zhōng)华(huá)人(rén)民(mín)共(gòng)和(hé)国(guó)中(zhōng)央(yāng)人(rén)民(mín)政(zhèng)府(fǔ)网(wǎng)站(zhàn) www.gov.cn
那(nà)么(me)具(jù)身(shēn)智(zhì)能(néng)到(dào)底(dǐ)是(shì)什(shén)么(me)呢(ne)?

图(tú)库(kù)版(bǎn)权(quán)图片,转载使用可能引发版权纠纷
回想我们看过的科幻电影,经典的机器人角色有很多——从冷酷强悍的杀手,到矫健的拳击运动员,从稳重冷静的维修工,到神烦碎嘴的礼仪官……不过,这些作品中的想象很美好,但实现起来真的很难——甚至光是让机器人像人那样迈开(kāi)两(liǎng)条(tiáo)腿(tuǐ)走(zǒu)路,都历尽坎坷。
反观我们人类的小宝宝,成长过程中也没有人给他们编什么程序,经过多次尝试和摔倒之后,他们自己就学会了爬和走,很快就能跑得飞快并躲开障碍。而“具身智能”技术,就参考了这个过程——这项技术能让机器人像人那样,用身体感知世界,在互动学习中成长。
具身智能是什么,
是怎么跟机器人结合的?
具身智能,英文全称是“Embodied Artificial Intelligence”,从这个全称我们可以看出,其实具身智能这个词中的“智能”就是“ AI ”(人工智能)的意思。而说到 AI ,大家早都不陌生了,从 ChatGpt 到 DeepSeek ,都是 AI 的一种。它们就像没有身体的“大脑”,虽然能从外部接收数据并解决问题,但它们作为没有身体的软件系统,缺乏通过身体与环境交互的能力和反馈机制。

图库版权图片,转载使用可能引发版权纠纷
举个例子,下围棋的 AlphaGo ,就必须有一位工作人员在场上帮它落子,因为 AlphaGo 是个纯算法系统,尽管能在服务器上快速训练成千上万场棋局,甚(shén)至(zhì)能(néng)够(gòu)战(zhàn)胜(shèng)世界冠军,但它自己甚至根本不具备在真实世界中拿起一枚棋子的能力。而具身智能机器人,则能通过摄像头、触觉及其他传感器等“感官”收集环境信息,并用肢体与环境互动,进而形成“感知-行动”的闭(bì)环(huán)。
了(le)解(jiě)了(le)上(shàng)面(miàn)的(de)信(xìn)息(xi),再(zài)解(jiě)释(shì)具(jù)身(shēn)智(zhì)能(néng)相(xiāng)关的(de)概(gài)念(niàn)就(jiù)比(bǐ)较(jiào)容(róng)易(yì)理(lǐ)解(jiě)了(le),所(suǒ)谓(wèi)“具(jù)身(shēn)智(zhì)能(néng)”是(shì)指(zhǐ)一(yī)种(zhǒng)基(jī)于(yú)物(wù)理(lǐ)身(shēn)体(tǐ)进(jìn)行(xíng)感(gǎn)知(zhī)和(hé)行(xíng)动(dòng)的(de)智(zhì)能(néng)系(xì)统(tǒng),其(qí)通(tōng)过(guò)智(zhì)能(néng)体(tǐ)与(yǔ)环(huán)境(jìng)的(de)交(jiāo)互(hù)获(huò)取(qǔ)信(xìn)息(xi)、理(lǐ)解(jiě)问(wèn)题(tí)、做(zuò)出(chū)决(jué)策(cè)并(bìng)实(shí)现(xiàn)行(xíng)动(dòng),从(cóng)而(ér)产(chǎn)生(shēng)智(zhì)能(néng)行(xíng)为(wèi)和(hé)适(shì)应(yīng)性(xìng)。总(zǒng)结(jié)一(yī)下(xià),具(jù)身(shēn)智(zhì)能(néng)就(jiù)是(shì)“能(néng)够(gòu)感(gǎn)知(zhī)、推(tuī)理(lǐ)并(bìng)与(yǔ)物(wù)理(lǐ)世(shì)界(jiè)互(hù)动(dòng)的(de)智(zhì)能(néng)系(xì)统(tǒng)”。而(ér)具(jù)身(shēn)智(zhì)能(néng)机(jī)器(qì)人(rén),可(kě)以(yǐ)视(shì)为(wèi)具(jù)身(shēn)智(zhì)能(néng)系(xì)统的载体。
那么,“具身智能机器人”可以简单理解为“给 AI 套了一具身体”或“给机器人装上了一个 AI ”吗?这种认识也是不全面的。举个例子,现在有一些机器人产品,能够做一些简单的动作,也连上了 AI ,甚至可以跟人聊得有来有回,但它们仍然不能算是具身智能。
这是因为它缺少了至关重要的一环,也就是“具身智能”中的“具身性”(Embodiment)。而具身性的核心在于,智能必须通过物理身体与环境的实时交互和动态反馈来生成,而非依赖预设(shè)程(chéng)序(xù)或(huò)离(lí)线(xiàn)数(shù)据(jù),要(yào)靠(kào)深(shēn)度(dù)融(róng)合(hé)人(rén)工(gōng)智(zhì)能(néng)与(yǔ)机(jī)器(qì)人(rén)两(liǎng)大(dà)前(qián)沿(yán)技(jì)术(shù)才(cái)能(néng)实(shí)现(xiàn)这(zhè)个(gè)目(mù)标(biāo),简(jiǎn)单(dān)“拼(pīn)”在(zài)一起是不行的。
为什么我们需要具身智能机器人?
其实现在已经有很多机器人在帮助人类劳动了,但很多机器人工作的时候依赖预(yù)先(xiān)编(biān)好(hǎo)的(de)程(chéng)序(xù),我(wǒ)们经常能看到工厂生产线中的机械臂(也是机器人的一种),它们高效默契地运行,能有条不紊地进行搬运、焊接等工作。这类机械臂通常高度依赖编程行动,虽然可以分毫不差地运行,也集成了一些基本的传感器以便了解工作状态,但遇到突发情况却仍然“不懂”避让行人(在无需工人的生产线上通常也没有必要)。
这也是为什么很多工厂的机械臂操作区都要装上隔离网,标上警戒线。因为这些机械臂工作时“只认程序不认人”,虽然有大量安全相关的措施和规章制度保障,但如果有人疏忽大意踏入它们的工作范围,仍可能发生悲剧——面对严格按程序从 A 点运动到 B 点的机械臂,挡在路上的人体实在太脆弱了。
试想一下,你敢让这样一个一个“只认程序”的机器人,走进你的家中,帮你打理家务,照顾老人小孩吗?当然,现在很多流水线上用的工业机器人也有了碰撞检测等功能,变得更加安全,但它们仍然是按预设程序执行,缺乏动态学习能力(lì),更(gèng)适(shì)合(hé)执(zhí)行(xíng)简(jiǎn)单(dān)的(de)重(zhòng)复(fù)任(rèn)务。而一旦面临复杂的环境和任务,只靠预设程序是行不通的,因为在复杂环境下,很难穷尽所有的规则。
这里再举个例子,在汽车制造业中,诸如搬运物料、抛光、焊接、喷漆等加工工序,大部分可以用机器人轻松完成。但是到了发动机、底盘、电器等装配工序,大部分工作仍难以用机器人完成,因为这些工作更加复杂,更需要“随机应变”以及沟通合作,机器人还无法胜任,需要人工。
而具身智能,则更加灵活,具有适应环境解决复杂任务的潜力,要想让机器人实现更加广泛的应用并走进千家万户,需要发展具身智能。
具身智能机器人,“活学活用”
由于具身智能和机器人的技术非常复杂,也有很(hěn)多(duō)不(bù)同(tóng)的(de)技(jì)术(shù)路线(xiàn),下(xià)面(miàn)仅(jǐn)以(yǐ)具(jù)身(shēn)智(zhì)能(néng)开(kāi)源(yuán)学(xué)习(xí)项(xiàng)目(mù) LeRobot 为(wèi)例(lì),简(jiǎn)单(dān)介(jiè)绍(shào)一(yī)下(xià)具(jù)身(shēn)智(zhì)能(néng)机(jī)器(qì)人(rén)的(de)基(jī)本(běn)特(tè)点(diǎn)。
假(jiǎ)设(shè)我(wǒ)们(men)的(de)任(rèn)务(wu)目(mù)标(biāo)是(shì)让(ràng)机(jī)械(xiè)臂(bì)捡(jiǎn)起(qǐ)黄(huáng)色(sè)的(de)小(xiǎo)积(jī)木(mù)块(kuài),再(zài)放(fàng)进(jìn)盒(hé)子(zi)里(lǐ)。我(wǒ)们(men)可(kě)以(yǐ)编(biān)程(chéng)序(xù)直(zhí)接(jiē)“命(mìng)令(lìng)”机(jī)械(xiè)臂(bì)严(yán)格(gé)按(àn)照(zhào)规(guī)定(dìng)路径和(hé)动(dòng)作(zuò)运(yùn)行(xíng)——很(hěn)多(duō)生(shēng)产(chǎn)线(xiàn)上(shàng)的(de)工(gōng)业(yè)机(jī)器(qì)人(rén)正(zhèng)是(shì)如(rú)此(cǐ),但(dàn)只(zhǐ)要(yào)积(jī)木(mù)换(huàn)个(gè)地(de)方(fāng),机(jī)械(xiè)臂(bì)按(àn)之(zhī)前(qián)的(de)行(xíng)动(dòng)路径就(jiù)会(huì)捡(jiǎn)个(gè)空(kōng)。我(wǒ)们(men)也(yě)可(kě)以(yǐ)编(biān)程(chéng)序(xù)让(ràng)机(jī)械(xiè)臂(bì)能(néng)识(shi)别(bié)出(chū)积(jī)木(mù)块(kuài),再(zài)执(zhí)行(xíng)“捡(jiǎn)”的(de)动(dòng)作(zuò)并(bìng)放(fàng)进(jìn)盒(hé)子(zi)里(lǐ),这(zhè)样(yàng)更(gèng)加灵活,但仍需要事先编写相应的程序。
而(ér) LeRobot 则(zé)是(shì)靠(kào)人(rén)操(cāo)作(zuò)主动(dòng)臂(bì),“手(shǒu)把(bǎ)手(shǒu)”地(de)教(jiào)从(cóng)动(dòng)臂完成一次捡起积木放进盒子的过程,从动臂运动的整个过程会被 2 个不同位置的摄像头全程监控并记录。改变几次积木位置,操纵机械臂重复数十到上百次捡起和放下的动作,就能获得足够的资料。

LeRobot 的一次训练过程 来自 Huggingface 官方教程
再通过算法“学习”这些资料,就能让这套系统“学会”捡积木——如果有积木块出现在机械臂面前,它就会自己拿起积木来放进盒子。

LeRobot 一次成功的自主拾取过程 来自 Huggingface 官方教(jiào)程(chéng)
上图中,研究人员并没有操作主臂,甚至积木的位置也改变了,但机械臂仍然能自主完成任务。
从上面这个简单的例子中,我们能了解具身智能的一些最基本的特点。首先,具身智能可以通过身体与环境的实时交互学习(多次捡起积木),不用事先编写大量规则穷尽所有(yǒu)可(kě)能(néng)。其(qí)次(cì),具(jù)身(shēn)智(zhì)能(néng)能(néng)够(gòu)在(zài)执(zhí)行(xíng)任(rèn)务(wu)的(de)过(guò)程(chéng)中(zhōng)动(dòng)态(tài)调(diào)整(zhěng)策(cè)略(è)(积(jī)木(mù)换(huàn)个(gè)地(de)方(fāng)也(yě)能(néng)捡(jiǎn)到(dào))。
当(dāng)然(rán),这(zhè)只(zhǐ)是(shì)个(gè)简(jiǎn)单(dān)的(de)例(lì)子(zi),实(shí)际(jì)上(shàng)具(jù)身(shēn)智(zhì)能(néng)机(jī)器(qì)人(rén)的(de)技(jì)术(shù)路线(xiàn)有(yǒu)很(hěn)多(duō),除(chú)了(le)像(xiàng)上(shàng)边(biān)的(de)例(lì)子(zi)中(zhōng)基(jī)于(yú)真(zhēn)实(shí)世(shì)界(jiè)交(jiāo)互(hù)的(de),还(hái)有(yǒu)在(zài)虚(xū)拟(nǐ)环(huán)境(jìng)中(zhōng)进(jìn)行(xíng)的(de)仿(fǎng)真(zhēn)训(xun)练(liàn)以(yǐ)及(jí)二(èr)者(zhě)相(xiāng)结(jié)合(hé)的(de)等(děng)等(děng)。此(cǐ)外(wài),具(jù)身(shēn)智(zhì)能(néng)机(jī)器(qì)人(rén)还(hái)能(néng)实(shí)现(xiàn)远(yuǎn)比(bǐ)捡(jiǎn)起(qǐ)积(jī)木(mù)扔(rēng)进(jìn)盒(hé)子(zi)里(lǐ)复(fù)杂(zá)得多的功能。比如行走、适应地形,模拟人的动作等等,不久之后,相信各类具身智能机器人,就能在更多的领域发挥重要作用。
最后总结一下,具身智能和机器人技术的融合,将会让未来的机器人变得更加能干,甚至能理解和模拟简单的感情交互。而且,对具身智能和机器人的持续投入,更将带动从软件到硬件的整个产业链的发展。
策划制作
作者丨丁崝 科普作者
审(shěn)核(hé)丨(gǔn)于(yú)乃(nǎi)功(gōng) 北(běi)京(jīng)工(gōng)业(yè)大学机器人工程专业负责人,北京人工智能研究院机器人研究中心主任,博士生导师
策划丨丁崝(zhēng)
审(shěn)校(xiào)丨(gǔn)徐(xú)来(lái)、林(lín)林(lín)
本(běn)文封(fēng)面(miàn)图片及文内图片来自版权图库
转载使用可能引发版权纠纷
