首次写入政府工作报告!这个科技新词“具身智能”到底是什么?

2025-03-14 17:00:38 科技

在(zài)2025年(nián)3月(yuè)5日(rì)第(dì)十(shí)四(sì)届(jiè)全国(guó)人(rén)民(mín)代(dài)表(biǎo)大(dà)会(huì)第(dì)三(sān)次(cì)会(huì)议(yì)上(shàng)的(de)政(zhèng)府(fǔ)工(gōng)作(zuò)报(bào)告(gào)中(zhōng),特(tè)别(bié)提(tí)到(dào)了“具身智能”。

图片

图片截自中华人民共和国中央人民政府网站 www.gov.cn

那么具身智(zhì)能(néng)到(dào)底(dǐ)是(shì)什(shén)么呢?

图片

图库版权图片,转载使用可能引发版权纠纷

回想我们看过的科幻电影,经典的机器人角色有很多——从冷酷强悍的杀手,到矫健的拳击(jī)运(yùn)动(dòng)员,从稳重冷静的维修工,到神烦碎嘴的礼仪(yí)官(guān)……不(bù)过(guò),这(zhè)些作品中的想象很美(měi)好(hǎo),但(dàn)实现起来真的很难——甚至光是让机器人像人那样迈开两条腿走路,都历尽坎坷。

反观我们人类的小宝宝,成长过程中也没有人给他们编什么程序,经过多次尝试和摔倒之后,他们自己就学会了爬和走,很快就能跑得飞快并(bìng)躲(duǒ)开(kāi)障(zhàng)碍(ài)。而(ér)“具(jù)身(shēn)智(zhì)能(néng)”技(jì)术(shù),就(jiù)参(cān)考(kǎo)了(le)这个过程——这项技术能让机器人像人那样,用身体(tǐ)感(gǎn)知世界,在互动学习中成长。

具身智能是什么,

是怎么跟机器人结合的?

具身智能,英文全称(chēng)是“Embodied Artificial Intelligence”,从(cóng)这(zhè)个全称我们可以看出,其实具身智能这个词中的“智能”就是“ AI ”(人工智能)的意思。而说到 AI ,大家早都不陌生了,从 ChatGpt 到 DeepSeek ,都是 AI 的一种。它们就像没有身体的“大脑”,虽然能从外部接收数据并解决问题,但它们作为(wèi)没(méi)有(yǒu)身(shēn)体(tǐ)的(de)软(ruǎn)件(jiàn)系(xì)统(tǒng),缺(quē)乏(fá)通(tōng)过(guò)身(shēn)体(tǐ)与(yǔ)环(huán)境(jìng)交(jiāo)互(hù)的能力和反馈机制。

图片

图库版权图片,转载使用可能引发版权纠纷

举个例子,下围棋的 AlphaGo ,就必须有一位工作人员在场上帮它落子,因为 AlphaGo 是个纯算法系统,尽管能在服务器上快速训练成千上万场棋局,甚至能够战胜世界冠军,但它自己甚至根本不具(jù)备(bèi)在(zài)真(zhēn)实(shí)世(shì)界中拿起一枚棋子的能力。而具身智能机器人,则能通过摄像头、触(chù)觉(jué)及(jí)其(qí)他(tā)传(chuán)感(gǎn)器(qì)等(děng)“感(gǎn)官(guān)”收(shōu)集环(huán)境(jìng)信(xìn)息(xi),并(bìng)用(yòng)肢(zhī)体(tǐ)与(yǔ)环(huán)境(jìng)互(hù)动(dòng),进(jìn)而(ér)形(xíng)成(chéng)“感(gǎn)知(zhī)-行(xíng)动(dòng)”的(de)闭(bì)环(huán)。

了(le)解(jiě)了(le)上(shàng)面(miàn)的(de)信(xìn)息(xi),再(zài)解(jiě)释(shì)具(jù)身(shēn)智(zhì)能(néng)相(xiāng)关的(de)概(gài)念就比较容易理解了,所谓“具身智能”是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互(hù)获(huò)取(qǔ)信息、理解问题、做(zuò)出决策并实现行动,从而产生智能行为和适应性。总结一下(xià),具(jù)身智能就是“能够感知、推理并与物理世界互动的智能系统”。而具身智能机器人,可以视为具身智能系统的载体。

那么,“具身智能机器人”可以简单理解为“给 AI 套了一具身体”或“给机器人装(zhuāng)上(shàng)了(le)一个 AI ”吗?这种认识也是不全面的。举个例子,现在有一些机(jī)器(qì)人(rén)产(chǎn)品(pǐn),能(néng)够(gòu)做(zuò)一(yī)些简单的动作,也连上了 AI ,甚至可以跟人聊得有来有回,但它们仍然不能算是具身智能。

这是因为它缺少了至关重要的一(yī)环(huán),也(yě)就(jiù)是(shì)“具(jù)身智能”中的“具身性”(Embodiment)。而具身性的核心在于,智能必须通过物理身体与环境的实时交互和动态反馈来生成,而非依赖预设程序或离线数据,要靠深度融合人工智能与机器人两大前沿技术才能实现这个目标,简单“拼(pīn)”在(zài)一(yī)起(qǐ)是(shì)不(bù)行(xíng)的(de)。

为(wèi)什(shén)么(me)我(wǒ)们(men)需(xū)要(yào)具(jù)身(shēn)智(zhì)能(néng)机(jī)器(qì)人(rén)?

其(qí)实(shí)现(xiàn)在(zài)已(yǐ)经(jīng)有(yǒu)很(hěn)多(duō)机(jī)器(qì)人(rén)在(zài)帮(bāng)助人类劳动了,但很多机器人工作的时候依赖预先编好的程序,我们经常能看到工厂生产线中的机械臂(也是机器人的一种),它们高效默契地运行,能有条不紊地进行搬运、焊接等工作。这类机械臂通常高度依赖编程行动,虽然可以分毫不差地运行,也集成了一些基本的传感器以便了解工作状态,但遇到突发情况却仍然“不懂”避让行人(在无需工人的生产线上通常也没有必要)。

这也是为什么很多工厂的机械臂操作区都要装上隔离网,标上警戒线。因为这些机械臂工作时“只认程序不认人”,虽然有大量安全相关的措施和规章制度保障,但如果有人疏忽大意踏入它们的工作范围,仍可能发生悲剧——面对严格按程序从 A 点运动到 B 点的机械臂,挡在路上的人体实在太脆弱了。

试想一下,你敢让这样一个一个“只认程序”的机器人,走(zǒu)进(jìn)你(nǐ)的(de)家(jiā)中(zhōng),帮你打理家务,照顾老人小孩吗?当然,现在很多流水线上用的工业机器人也有了碰撞检测等功能,变得更加安全,但它们仍然是按预设程序执行,缺乏动态学习能力,更适合执行简单的重复任务。而一旦面临复杂的环境和任务,只靠预设程序是行不通的,因为在复杂环境下,很难穷尽所有的规则。

这里再举个例子,在汽车制造业中,诸如搬运物料、抛光、焊接、喷漆等加工工序,大部分可以用机器人轻松完成。但是到了发动机、底盘、电器等装配工序,大部分工作仍难以用机器人完成,因为这些工作更加复杂,更需要“随机应变”以及沟通合作,机器人还无法胜任,需要人工。

而具身智能,则更加灵活,具有适应环境解决复杂任务的潜力,要想让机器人实现更加广泛的应用并走进千家万户,需要发展具身智能。

具身智能机器人,“活(huó)学(xué)活(huó)用(yòng)”

由(yóu)于(yú)具(jù)身(shēn)智(zhì)能(néng)和(hé)机(jī)器(qì)人(rén)的(de)技(jì)术(shù)非(fēi)常(cháng)复(fù)杂(zá),也(yě)有(yǒu)很(hěn)多(duō)不(bù)同(tóng)的(de)技(jì)术(shù)路线(xiàn),下(xià)面(miàn)仅(jǐn)以(yǐ)具(jù)身(shēn)智(zhì)能(néng)开(kāi)源(yuán)学(xué)习(xí)项(xiàng)目(mù) LeRobot 为(wèi)例(lì),简(jiǎn)单介绍一下(xià)具(jù)身(shēn)智(zhì)能(néng)机(jī)器(qì)人(rén)的(de)基(jī)本(běn)特(tè)点(diǎn)。

假(jiǎ)设(shè)我(wǒ)们(men)的(de)任(rèn)务(wu)目(mù)标(biāo)是(shì)让(ràng)机(jī)械(xiè)臂(bì)捡(jiǎn)起(qǐ)黄(huáng)色(sè)的(de)小(xiǎo)积(jī)木(mù)块(kuài),再(zài)放(fàng)进(jìn)盒(hé)子(zi)里(lǐ)。我(wǒ)们(men)可(kě)以(yǐ)编(biān)程(chéng)序(xù)直(zhí)接(jiē)“命(mìng)令(lìng)”机(jī)械(xiè)臂(bì)严(yán)格(gé)按(àn)照(zhào)规(guī)定(dìng)路径和(hé)动(dòng)作(zuò)运(yùn)行(xíng)——很(hěn)多(duō)生(shēng)产(chǎn)线(xiàn)上(shàng)的(de)工(gōng)业(yè)机(jī)器(qì)人(rén)正(zhèng)是(shì)如(rú)此(cǐ),但(dàn)只(zhǐ)要(yào)积(jī)木(mù)换(huàn)个(gè)地(de)方(fāng),机(jī)械(xiè)臂(bì)按(àn)之(zhī)前(qián)的(de)行(xíng)动(dòng)路径就(jiù)会(huì)捡(jiǎn)个(gè)空(kōng)。我(wǒ)们(men)也(yě)可(kě)以(yǐ)编(biān)程(chéng)序(xù)让(ràng)机(jī)械(xiè)臂(bì)能(néng)识(shi)别(bié)出(chū)积(jī)木(mù)块(kuài),再(zài)执(zhí)行(xíng)“捡(jiǎn)”的(de)动(dòng)作(zuò)并(bìng)放(fàng)进(jìn)盒(hé)子(zi)里(lǐ),这(zhè)样(yàng)更(gèng)加(jiā)灵(líng)活(huó),但(dàn)仍(réng)需(xū)要(yào)事(shì)先(xiān)编(biān)写(xiě)相(xiāng)应(yīng)的(de)程(chéng)序(xù)。

而(ér) LeRobot 则(zé)是(shì)靠(kào)人(rén)操(cāo)作(zuò)主动(dòng)臂(bì),“手(shǒu)把(bǎ)手(shǒu)”地(de)教(jiào)从(cóng)动(dòng)臂(bì)完(wán)成(chéng)一(yī)次(cì)捡(jiǎn)起(qǐ)积木放进盒子的过程,从动臂运动的整个过程会被 2 个不同位置的摄像头全程监控并记录。改变几次积木位置,操纵机械臂重复数十到上百次捡起和放下的动作,就能获得足够的资料。

图片

LeRobot 的一次训练过程 来自 Huggingface 官方教程

再通过算法“学习”这些资料,就能让这套系统“学会”捡积木——如果有积木块出现在机械臂面前,它就会自己拿起积木来放进盒子。

图片

LeRobot 一次成功的自主拾取过程 来自 Huggingface 官方教程

上图中,研究人员并没有操作主臂,甚至积木的位置也改变了,但机械臂仍然能自主完成任务。

从上面这个简单的例子中,我们能了解具身智能的一些最基本的特点。首先,具身智能可以通过身体与环境的实时交互学习(多次捡起积木),不用事先编写大量规则穷尽所有可能。其次,身智能能够在执行任务的过程中动态调整策略(积木换个地方也能捡到)

当然,这只是个简单的例子,实际上具身智能机器人的技(jì)术路线有很多,除了像上边的例子中基于真实世界交互的,还有在虚拟环境中进行的仿真训练以及二者相结合的等等。此外,具身智能机器人还能实现远比捡起积木扔进盒子里复杂得多的功能。比如行走、适应地形,模拟人的动作等等,不久之后,相信各类具身智能机器人,就能在更多的领域发挥重要作用。

最后总结一下,具身智能和机器人技术的融合,将会让未来的机器人变得(de)更(gèng)加(jiā)能(néng)干(gàn),甚(shén)至(zhì)能(néng)理(lǐ)解(jiě)和(hé)模(mó)拟(nǐ)简(jiǎn)单(dān)的(de)感(gǎn)情(qíng)交(jiāo)互(hù)。而(ér)且(qiě),对(duì)具(jù)身(shēn)智(zhì)能(néng)和(hé)机(jī)器(qì)人(rén)的(de)持(chí)续(xù)投(tóu)入(rù),更(gèng)将(jiāng)带(dài)动(dòng)从(cóng)软(ruǎn)件(jiàn)到(dào)硬(yìng)件(jiàn)的(de)整(zhěng)个(gè)产(chǎn)业(yè)链(liàn)的(de)发(fā)展(zhǎn)。

策(cè)划(huà)制(zhì)作(zuò)

作(zuò)者(zhě)丨(gǔn)丁(dīng)崝(zhēng) 科(kē)普(pǔ)作(zuò)者(zhě)

审(shěn)核(hé)丨(gǔn)于(yú)乃(nǎi)功(gōng) 北(běi)京(jīng)工(gōng)业(yè)大(dà)学(xué)机(jī)器(qì)人(rén)工(gōng)程(chéng)专(zhuān)业(yè)负(fù)责(zé)人(rén),北(běi)京(jīng)人(rén)工(gōng)智(zhì)能(néng)研(yán)究(jiū)院(yuàn)机(jī)器(qì)人(rén)研(yán)究(jiū)中(zhōng)心(xīn)主任(rèn),博(bó)士(shì)生(shēng)导(dǎo)师(shī)

策(cè)划(huà)丨(gǔn)丁(dīng)崝(zhēng)

审(shěn)校(xiào)丨(gǔn)徐(xú)来(lái)、林(lín)林(lín)

本(běn)文封(fēng)面(miàn)图(tú)片(piàn)及(jí)文内(nèi)图(tú)片(piàn)来(lái)自(zì)版(bǎn)权(quán)图(tú)库(kù)

转(zhuǎn)载(zài)使(shǐ)用(yòng)可(kě)能(néng)引(yǐn)发(fā)版(bǎn)权(quán)纠(jiū)纷(fēn)