暗黑厨房里的机械共舞,人形机器人如何从科幻走进现实?

2025-03-03 09:13:26 科技

image.png

Figure机器人(图源:Figure)

在科幻电影的预言中,人类与机器人的(de)共(gòng)生(shēng)总(zǒng)是(shì)始于一场静默的革命——那些曾经笨拙的机械臂开始像人类一样思考,冰冷的金属关节学会与生活场景共舞。而2025年2月,这一幕似乎悄然在现实中上演。

美国初创公司Figure推出的新一代人形机器人,搭载了名为Helix的视觉-语言-动作(VLA)模型,极大增强了机器人的感知、控制、理解能力,让两台机器人无需预演便能默契传递物品,以近乎科幻的智能协作能力,将家庭场景中的机械(xiè)管(guǎn)家(jiā)从(cóng)幻(huàn)想(xiǎng)拉(lā)入(rù)现(xiàn)实(shí)。

人形机器人:科技的集大成者

image.png

电影《大都会(Metropolis)》剧照

机器人(Robot)的概念,最早出现在捷克著名作家卡雷尔·恰佩克(Karel Čapek)于1920年创作的戏剧《罗素姆万能机器人》中。1927年电影《大都会》中的人造人玛丽亚,便以机械之躯承载人性,成为赛博朋克美学的早期雏形。

人形机器人(Humanoid Robot)是一种利用人工智能和机器人技术制造的具有类似人类外观和行为的机器人,融合了机械工程、电子技术、计算机科学、人工智能等多学科领域的前沿成果。

image.png

NASA 的 Valkyrie (R5) 机器人

图源:NASA

人形机(jī)器(qì)人(rén)的(de)核(hé)心(xīn)技(jì)术(shù)由四部分组成:

感知系统:指人形机器人需要具备感知环境的能力,通过传感器等设备来获取外部信息,如视觉感知、听觉感知、触觉感知等。

智能决策:指通过机器学习、深度学习、神经网络等人工智能技术,使机器人能够根据情景和任务要求自主决策和判断。

人机交互:指人形机器人能够更好地与人类进行交流和互动的功能,如语言识别、情感识别等。

运动控制:指通过使用各种传感器和算法来对机器人进行姿势控制、步态规划和平衡控制。

人形机器人的发展史,是一部人类试图用机(jī)械(xiè)复(fù)刻(kè)自(zì)身(shēn)的(de)史(shǐ)诗(shī)。从(cóng)蒸(zhēng)汽(qì)时(shí)代(dài)的(de)齿(chǐ)轮(lún)幻(huàn)想(xiǎng),到(dào)AI时(shí)代(dài)的(de)神(shén)经(jīng)网(wǎng)络(luò)革(gé)命(mìng),每(měi)个(gè)技(jì)术(shù)节(jié)点(diǎn)的(de)突(tū)破(pò)都(dōu)暗(àn)合(hé)着(zhe)科(kē)幻(huàn)作(zuò)品(pǐn)的(de)预(yù)言(yán)与(yǔ)启(qǐ)示(shì)。

01

早期发展阶段(1970s-2000):

早期的人形机器人模型外表简略,仅仅具有初级的人类躯干与肢体形状,能实行的功能也存在很大局限性,只能实现简单的行走和手部运动,尚未具备交互能力且智能化水平较低。

image.png

WABOT-1机(jī)器(qì)人(rén)(图(tú)源(yuán):早(zǎo)稻(dào)田(tián)大学)

例如1973年,日本早稻田大学研发出了世界上第一款人形机器人WABOT-1,它只能够执行搬运物体等任(rèn)务(wu),智(zhì)力(lì)水(shuǐ)平(píng)相(xiāng)当(dāng)于(yú)一(yī)岁(suì)半(bàn)的(de)婴(yīng)儿(ér);同(tóng)时(shí)期(qī)日(rì)本(běn)本(běn)田(tián)公(gōng)司(sī)研(yán)发(fā)的(de)自(zì)主行走机器人P2和ASIMO也仅仅在行走和平衡方面进行不断优化。

02

高度集成发展阶段(2001-2011):

这一阶段是人形机器人初级感知功能的起步阶段。这一时期的人形机器人因技术的突破可以实现与外界环境有限的互动,并且运动自由度提升。虽然应用场景较为简单,主要用于展览和娱乐,但在运动控制和人机交互方面确实有很大进步。

image.png

本田机器人发展历史与第三代ASIMO(图源:本田Honda)

例如2003年索尼QRIO机器人配备了语音识别功能和人脸识别功能,能识别10种面部表情;2011年,日本本田推出的第三代ASIMO,其利用传感器避开障碍物等自动判断并行动的能力,还能用五根手指做手语,或将水壶里的水倒入纸杯;ASIMO不仅能上下楼梯、端茶倒水,还曾在2014年指挥底特律交响乐团。

03

高动态运动与交互能力提升阶段

(2012-2020):

该阶段的研发重点放在强化人形机器人的运动能力或交互能力上。强化学习技术让人形机器人在与环境的(de)交互中不断优化动作和行为,情感识别和语言交互技术也得到显著提(tí)升(shēng)。

image.png

POPPY机(jī)器(qì)人(rén)发(fā)展(zhǎn)历(lì)史(shǐ)(图(tú)源(yuán):Inria)

例(lì)如(rú),2013年(nián)美(měi)国(guó)波(bō)士(shì)顿(dùn)动(dòng)力(lì)公(gōng)司(sī)研(yán)发(fā)的(de)双(shuāng)足(zú)人(rén)形(xíng)机(jī)器(qì)人(rén)Atlas具(jù)有(yǒu)超(chāo)高(gāo)的(de)运(yùn)动(dòng)能(néng)力(lì),可(kě)以(yǐ)熟(shú)练地完成垂直起跳、倒立(lì)、跨(kuà)越(yuè)障(zhàng)碍(ài)、后(hòu)空(kōng)翻(fān),甚(shén)至(zhì)和(hé)Spot机(jī)器(qì)人(rén)一(yī)起(qǐ)舞(wǔ)蹈(dǎo),具(jù)有(yǒu)手(shǒu)脚(jiǎo)都(dōu)参(cān)与(yǔ)的(de)跑(pǎo)酷(kù)功(gōng)能(néng)。

2016 年(nián)法(fǎ)国(guó) Inria Flower 实(shí)验(yàn)室(shì)开(kāi)发(fā)的(de)第(dì)一(yī)款(kuǎn)开(kāi)源(yuán)人(rén)形(xíng)机(jī)器(qì)人(rén) POPPY 上(shàng)市(shì),它(tā)在(zài)教(jiào)育(yù)、科(kē)研(yán)、文化(huà)艺(yì)术(shù)等(děng)多(duō)个领域都展现出出色(sè)的(de)适(shì)应(yīng)能(néng)力(lì)。在(zài)教(jiào)育(yù)领(lǐng)域,POPPY 可(kě)以(yǐ)作(zuò)为(wèi)教(jiào)学(xué)工(gōng)具(jù),帮(bāng)助(zhù)学(xué)生(shēng)更(gèng)直(zhí)观(guān)地(de)理(lǐ)解(jiě)机(jī)器(qì)人(rén)原(yuán)理(lǐ)和(hé)编(biān)程(chéng)知(zhī)识(shi);在(zài)文化(huà)艺术创作中,艺术家们借助 POPPY 的独特表现力,创作出许多新颖的艺术作品。

04

高度智能化发展阶段(2020至今):

借助现代人工智能、计算机视觉系统等先进技术,人形机器人迈向智能化进阶之(zhī)路。如(rú)今(jīn)的(de)人(rén)形(xíng)机(jī)器(qì)人(rén)的(de)感(gǎn)知(zhī)与(yǔ)认(rèn)知(zhī)能(néng)力(lì)大(dà)大(dà)增(zēng)强(qiáng),大(dà)多(duō)具(jù)有(yǒu)高(gāo)度(dù)仿(fǎng)生(shēng)的(de)躯(qū)干(gàn)构(gòu)型(xíng)和(hé)拟(nǐ)人(rén)的(de)运(yùn)动(dòng)控(kòng)制(zhì),在(zài)重(zhòng)量、灵活性等方面都有显著进步,实用性大大增强。

image.png

Ameca机(jī)器(qì)人(rén)发(fā)展(zhǎn)历(lì)史(shǐ)(图(tú)源(yuán):Engineered Arts)

例(lì)如(rú),英(yīng)国(guó) Engineered Arts 为(wèi) Ameca 接(jiē)入(rù) GPT-3/4 后(hòu),它(tā)如(rú)获(huò)新(xīn)生(shēng)。Ameca 配(pèi)备(bèi)了(le)高级传感器,具备面部和多种语音识别功能,可以自然地与人类互动,不仅能敏锐检测人类情绪,还能通过丰富的表情和手势传达信息。

在一些高端科技体验场所,Ameca 作为接待员,以亲切的交流和互动为访客提供服务,给人留下深刻印象。特斯拉公司的Optimus Gen2人形机器人的移动功能、灵巧性、平衡性和实时处理方面的功能也因为AI大模型的介入得到了显著提升。

image.png

Unitree H1机器人(图源:宇树科技)

虽然国内人形机器人的发展起步较晚,上个世纪90年代才开始研究。但近年来,国内人形机器人研发取得了显著进展,众多企业和科研机构积极投身其中,在技术创新和产品应用方面不断探索。宇树科技便是国内人形机器人领域的佼佼者。

在春晚舞台上,宇树科技的16台人形机器人Unitree H1与舞蹈演员共同演绎《秧BOT》,以“赛博秧歌”惊艳全场。这些机器人拥有19个关节,手臂额外增加3个自由度,实现了手绢旋转、抛掷回收等高难度动作。

这支名为《秧BOT》的舞蹈背后,是19个关节的精密协同,是每帧动作的AI映射,更是双足机器人在复杂动态平衡领域的突破性进展,充分展现了宇树科技在人形机器人研发方面的深厚实力。

人形机器人的发展前景令人充满期待。随着人工智能、材料科学、传感器技术等领域的持续创新突破,人形机器人将变得更加智能、灵活和强大。

在智能水平方面,它们将具备更强大的学习能力和推理能力,能够理解和处理更加复杂的任务和情境。通过(guò)与(yǔ)物(wù)联(lián)网(wǎng)、大(dà)数(shù)据(jù)等(děng)技(jì)术(shù)的(de)深(shēn)度(dù)融(róng)合(hé),人(rén)形(xíng)机(jī)器(qì)人(rén)可(kě)以(yǐ)实(shí)时(shí)获(huò)取(qǔ)和(hé)分(fēn)析(xī)海量数据,实现更精准的决策和更高效的行动。

在运动能力上,新型材料和机械设计将使人形机器人的动作更加流畅、自然,能够适应各种复杂的地形和环境,完成更多高难度的动作。

image.png

Figure机器人(图源:Figure)

随着人形机器人技术的不断成熟,其应用场景也日益广泛。在工业领域,它们可以承担一些危险、重复或高精度的工作;在医疗领域,人形机器人可协助医生进行手术,凭借其高精度的操作能力,降低手术风险;在家庭服务方面,人形机器(qì)人(rén)可(kě)以担当家务助手,扫地、擦窗、洗碗等家务都能轻松完成;在教育领域,人形机器人作为创新的教(jiào)学(xué)工(gōng)具(jù),能(néng)够(gòu)以(yǐ)生(shēng)动(dòng)有(yǒu)趣(qù)的(de)方(fāng)式(shì)传(chuán)授(shòu)知(zhī)识。

由(yóu)此(cǐ)可(kě)见(jiàn),人(rén)形(xíng)机(jī)器(qì)人(rén)未(wèi)来(lái)潜(qián)力(lì)巨(jù)大(dà),不(bù)过(guò)仍(réng)面(miàn)临(lín)多(duō)种(zhǒng)挑(tiāo)战(zhàn)。

1.高(gāo)算(suàn)力(lì):人(rén)形(xíng)机(jī)器(qì)人(rén)的(de)姿(zī)态(tài)、速(sù)度(dù)和(hé)力(lì)度(dù)等(děng)方面,都需要高算力,现阶段的计算能力面临巨大挑战。

2.弱技术:现在基础技术能力仍然很弱,现有的软件算法等不足以支撑人形机器人的大规模应用,仍需技术大幅创新。

3.高成本:研发成本高昂,高额亏损、研发投入高,是人形机器人行业的常态。

4.不安全:数据安全能力和体系均存在不足,面临安全隐私等问题。

image.png

游戏《底特律:化身为人(Detroit: Become Human)》主角康纳

从WABOT-1的简单动作到Ameca的自由互动,人形机器人正以“科技奇迹”之姿步入日常生活。它们既是《2001太空漫游》中HAL 9000的进化版,也是《底特律:变人》中康纳的原型。但技术的终极目标并非取代人类,而是如《星际穿越》中的TARS一般,成为探索未知的协作伙伴。

未来,当人形机器人真正融入社会时,人类或将重新定义“人性”——不是以生物学特征为界限,而是以创造力、同理心与伦理选择为标尺。

或许正如所有经典科幻的警示寓言,人形机器人终将成为照见人类本质的镜子:当它们学会在递出苹果时调整指尖力度以防磕碰,我们是否能以同等温柔对待同类?当它们突破图灵测试的瞬间,人类引以为傲的 “意识” 疆域又该如何重新勘定?

答案或许藏在下个十年的实验室里,也可能早已写在艾西莫夫的机器人定律与《仿生人会梦见电子羊吗》的雨夜独白中。唯一确定的是,这场机械觉醒的终章,注定由人类文明与机器智能共同书写。

参考资料:

https://www.ccidgroup.com/info/1207/41123.htm

https://www.hanspub.org/journal/paperinformation?paperid=86460

https://www.figure.ai/news/helix

https://en.wikipedia.org/wiki/Atlas_(robot)

https://builtin.com/robotics/humanoid-robots

https://en.wikipedia.org/wiki/Humanoid_robot作者:杨雨鑫

策划:刘颖 张超 李培元 杨柳

审核:付昌义 南京工业大学副教授

江苏省科普作家协会科幻专委会主任委员