具身智能,一个一年前还在学术圈“圈地自萌”的概念,近来热度持续攀升,甚至超过了此前爆火的大模型。图灵奖得主姚期智、英伟达创始人黄仁勋、“硅谷钢铁侠”马斯克、华裔人工智能权威李飞飞等AI领域的大咖纷纷发声,认为具身智能将是人工智能的下一波浪潮。

除了言语上的“力挺”,产业端也在发力。今年5月,特斯拉公布人形机器人“擎天柱”最新进展。马斯克预言,人形机器人这类产品的需求,未来将远超特斯拉汽车。7月举行的2023世界人工智能大会上,上海期智研究院“小星”、傅利叶智能“GR-1”等多款人形机器人同时亮相。从华为离职的“天才少年”彭志辉(B站Up主稚晖君)创立的上海智元机器人公司也于近期发布其自主研发的首款人形机器人“远征A1”,目标直指“具身通用人工智能”。

有人说今年是“人形机器人元年”。有了大模型加持,人们不再满足于机器人只是一个“大玩具”,更希望它能通过自我学习掌握各项技能,以更自然更智能的方式与周边环境交互,完成各种任务,成为真正有意识的智能形态。也正是在大模型问世后,人们看到了实现通用人工智能(AGI)的可行性。


要拥有人一样的智能,必须有人一样的身体

1950年,“人工智能之父”艾伦·图灵在其论文《计算机器与智能》中首次提出“具身智能”概念。其基本假设是,智能行为可以被具有对应形态的智能体通过适应环境的方式习得。换言之,要拥有人一样的智能,必须有人一样的身体。

如何理解?不妨回忆一下谷歌是如何让机器识别猫的。科学家通过给机器“投喂”数以亿计的图片“告诉”它们,这些有四肢、有胡须、态度傲慢的小动物名叫“猫”。此时的机器如同一只被捆绑住手脚的猫,只能通过人为标注的知识进行学习。

相比之下,人类的学习过程并不只是“看”,我们可以通过抚摸、喂食、学猫叫等方式与猫互动,并在猫的反馈中不断加深对这种生物的认知。上海交通大学电子信息与电气工程学院计算机系教授、2023年“科学探索奖”得主卢策吾表示,从认知角度看,人是“第一人称视角智能”,没有身体的机器是“第三人称视角智能”,前者可以通过与真实世界的互动进行主动学习,通过思维链的拓展去理解新的概念。

与过去通过“喂数据”指挥机器行动不同,具身智能的做法是让机器自己学习如何与环境交互。OpenAI团队曾公布过一段让机械手还原魔方的视频,他们在这项任务中设置了各种障碍,比如给机械手戴上手套、绑住其中两根手指、更换不同阻力的魔方等,目的就是让机器自己想办法还原魔方。


“大脑”与“小脑”结合,更好地理解世界

在图灵提出具身智能概念后的几十年里,尽管大家都认可这是一个重要概念,但并没有取得很大进展,因为当时的技术还不足以支撑其发展。

这两年,具身智能在学术界的热度逐步攀升。卢策吾透露,近年来在CoRL(机器人学习大会)上,具身智能领域的论文数量激增。今年年初举行的IROS(智能机器人及系统国际会议)则将具身智能作为一个极为重要的议题。

而真正让它爆火的,是今年上半年以ChatGPT为代表的大语言模型爆炸式“出圈”。彭志辉表示,大语言模型以及结合视觉等多种传感器的复杂多模态模型,是实现具身智能的关键先决条件。它使机器人可以从程序执行导向转向任务目标导向,向通用机器人迈出坚实步伐。

事实上,“远征A1”就是以大模型为机器人“大脑”,任务泛化率和任务执行成功率是它的核心指标,具体考验“大脑”在面对从未涉及的任务时能否自行决策并生成解决方案。有了大模型“端脑”(脑的最高级部位),“远征A1”就能听懂自然语言指令,分析出讲话者的意图。比如,主人说“我要一杯水”或“我渴了”,它都能理解,随后前往饮水机或其他地方取水,并把水杯递给主人。

外骨骼机器人公司傅利叶智能闯入具身智能赛道,既在意料之外又在情理之中。在其创始人顾捷看来,具身智能可以被视作“认知智能+运动智能”:多模态模型相当于让机器人有了可以在真实世界中决策和行动的“大脑”,公司此前在运动机器人方面的技术储备相当于在“小脑”上积累了丰富经验,如今“大脑”与“小脑”结合挺进具身智能,可谓水到渠成。


具身智能的“终极幻想”还有多远

在傅利叶智能丰富的产品线中,各类机器人对应不同的康复需求。而一旦实现具身智能,出现在人们面前的可能是另一幅场景——一款机器人,只需在专用场景上做一些开发适配,就能像人一样胜任医生、厨师、消防员等不同职业,在多场景中发挥作用。“这正是具身智能如此吸引人的原因之一。”顾捷说。

在大模型加持下,微软、谷歌、英伟达等大厂,以及斯坦福大学、卡内基·梅隆大学等研究机构均在具身智能研究领域发力。其中谷歌依托旗下两家AI科研机构——谷歌大脑和DeepMind,在技术路线上较为领先,其研发的RoboCat是全球首个能解决并适应多个任务的机器人,只需上百次演示就能掌握一项新技能。

卢策吾团队的研究思路也是让机器“自适应”。以让机器人打开微波炉门这个操作为例,第一次,机器人可能没有见过微波炉,所以距离轴和力气预估会有偏差,不过没关系,通过不断尝试,它就会自我习得打开微波炉所需的各项参数。目前,卢策吾团队已经汇聚了100TB的研究数据,让机器抓取了成千上万个它从未见过的物体。

尽管大模型时代,人们对人形机器人有了更宽广的想象空间,但在现实中,感知、驱动、能源、计算等具身智能的每一个关键环节,都距离理想状态还相去甚远,甚至连像普通人一样走路这件事,至今仍是一个大难题。以人形机器人的移动能力为例,波士顿动力已经是业内望尘莫及的标杆,它推出的Atlas跑酷的视频,一度让人觉得机器人的运动能力已接近人类。实际上,Atlas在拍摄过程中,接近一半时间都会失去平衡。

目前在全球范围内,人形机器人都还处于研发阶段。动辄一台几十万元的成本,以及技术上面临的诸多瓶颈,仍然预示着人形机器人距离落地应用还有一段很长的路要走。