图片|电视剧《西部世界》剧照

2024年才一开年,一款名叫Mobile ALOHA的机器人就因为“会炒菜”在X上出了名,还被各种大V轮番转发。

▲Mobile ALOHA 在做菜 图源:斯坦福大学

可能很多人会有疑问,都2024年了,机器人会炒菜早已不是什么新闻,为什么这款机器人会如此备受关注?原因很简单,因为Mobile ALOHA的“炒菜”技术,和之前的炒菜机器人完全不是一回事。

传统炒菜机器人大多是滚筒结构,需要人工进行备菜,机器人按照设定的程序将配菜按顺序倒入滚筒,然后滚筒翻滚,在翻滚的过程中,机器人的调料瓶可以自动挤出调料。

但Mobile ALOHA却可以使用人类的案板和刀具、使用人类的灶具和炒锅,它也没有专属的调料瓶,而是如人类一样,用“手”拿起盐罐和酱油。总之,它如同真人一般,完成了一整套炒菜的流程。

只这一点,Mobile ALOHA就已经完全颠覆了传统机器人的工作方式。

2021年8月,马斯克首次公布了特斯拉的人形机器人计划。之所以选择人形机器人,是因为这是当前最适合人类生活环境的机器人形态,它不需要为了适配机器人的工作而改造环境,也不必为机器人单独制造额外的工具。

它完全可以像人一样,走人类所走的路、用人类的工具参与劳动。

但人形机器人一直存在一个很大的问题——学人走路很简单,学人做事却很难。

1月中旬,马斯克曾在X上展示了特斯拉的人形机器人Optimus Gen 2叠衣服的视频,在视频中,Optimus Gen 2 的动作仍然笨拙,并且这套展示还不是机器人自主执行的操作。

▲马斯克X平台截图

作为对比,Mobile ALOHA表现出来的能力,就更加具有冲击力了。

而Mobile ALOHA之所以能有如此亮眼的表现,关键在于斯坦福团队使用了行为克隆(BL)的方法,由人带着机器人针对某个动作重复操作50多次,之后机器人就能够自主完成相应的动作。

这种由人类直接参与的训练方式,与去年引爆ChatGPT的路径有许多相似之处。

2023年初,OpenAI推出的ChatGPT引爆全球,推动这一点的关键技术就是“人类强化反馈学习”,它通过将人类反馈作为“奖励”和“惩罚”引入AI训练,打破了原来大模型训练的瓶颈。

而现在,随着行为克隆(BL)方法在机器人训练上的使用,曾经一直桎梏人形机器人训练的技术也迎来新的突破。似乎,人形机器人正在迎来自己的“ChatGPT时刻”。


01

这一次,终于轮到了华人?

在世界科技发展的前沿,华人的身份总是在国内受到额外的关注。

比如大家会关注OpenAI的华人工程师,关注马斯克超过三分之一的华人团队,关注时代周刊“全球百大AI人物”榜单中的华人入围数量。

虽然华人在世界科技发展的前沿占据重要的地位,也做出过许多不可磨灭的贡献,但到目前为止,引领世界科技浪潮的华人角色仍然屈指可数。

但这一次不同,如果行为克隆(BL)成为打开人形机器人大门的钥匙,那华人也将站在世界科技变革的中心。

作为一款家政机器人,Mobile ALOHA由斯坦福大学的华人团队研发,其核心成员包括Zipeng Fu、Tony Z.Zhao和他们的导师Chelsea Finn。其中Zipeng Fu是项目共同负责人,他是斯坦福人工智能实验室计算机学博士生,也是谷歌Deep Mind学生研究员。Tony Z. Zhao则是斯坦福大学的计算机科学博士生。

▲Mobile ALOHA主创团队

虽然我们前面在讨论人形机器人,并认为Mobile ALOHA能够为人形机器人的训练带来变革,但从外观上讲,Mobile ALOHA和“人形”几乎毫不相关。

Mobile ALOHA的构造极其简单,1个移动底座(AgileX Tracer AGV);两只手臂(ViperX 300),配有2个腕部摄像头和1个顶部摄像头,然后在底座上搭配有机载电源和计算设备。

它的实物长这样:

▲Mobile ALOHA样机

Mobile ALOHA的操作模式分为两种,一种是真人遥控操作,另一种是全自动操作。

在遥控模式下,操控者可以将自己的腰部和底座连接,通过扭动腰部直接驱动轮子实现移动控制,同时,操作人员可以通过后端的机械臂控制前端的机械臂。而在自动模式下,这一切都由计算机在统一操控。

和特斯拉Optimus Gen 2的演示视频并非机器人独立操作的一样,X平台上广泛流传的Mobile ALOHA的演示视频也并非由机器人独立完成,而更多是两种模式混合下的操作结果。

▲X平台截图

但即便如此,Mobile ALOHA的操作,也给机器人训练带来巨大的突破。比如像炒个虾仁、擦拭酒瓶、冲洗盘子等简单的动作,只需要操作员手把手带着机器人重复50次,机器人就能够学会并自主操作。

这个过程,就类似小时候,妈妈手把手带着我们握笔和写字一样。但模仿学习的过程对于人类来说,其实并不容易,对机器人来说就更是如此了。

2018年,波士顿动力一段机器人翻跟头、跨越障碍的视频在网络上走红,成为国内对人形机器人最早的科普。大家当时普遍惊讶于波士顿动力的机器狗,对于特技动作的控制能力,但实际上,对于机器人来说,实现翻跟头、跳跃、鞠躬,要比实现做家务简单多了。

这种现象有一个专有名词——“莫拉维克悖论”。

这个概念是人工智能和机器人学领域的先驱汉斯·莫拉维克提出的,它描述了在计算机和机器人系统中一个有趣且非直观的现象:对于人类来说简单的感知和运动任务,对计算机和机器人而言却异常困难;而相反,人类认为复杂的逻辑和抽象思维任务,对计算机来说却相对容易。

Mobile ALOHA之所以能够如此轻松地完成一些简单动作,关键在于斯坦福团队在机器人模仿学习能力上的突破。

模仿学习有几个“难啃”的骨头。

比如复杂的感知能力和环境适应能力,模仿学习要求机器人需要高度发达的感知能力,包括视觉、听觉、触觉等多种感官输入的综合处理,以理解和模仿人类行为。

比如精确的动作复制能力,人类的动作细微且流畅,机器人如果要精确复制,不仅需要复杂的机械结构,还需要高度精确动作控制算法。

最后还有机器人的多样性和泛化能力,人类可以将学过的技能在多种不同场景中复用,但对于机器人来说,每一个新的场景都是一次新的学习。

为了应对这些难题,机器学习领域开发了各种不同的模仿学习方法,其中主流的方法有三个,包括行为克隆(BL)、逆强化学习(IRL)和生成对抗模仿学习(GAIL)。

对于Mobile ALOHA,它的目标只是为了完成简单动作,泛化要求低,且希望在短期内看到效果。所以他们选择了行为克隆(BL)的方法。

简单来说,行为克隆是一种将观察映射到行动的方法。比如我们看到有人举着手向你迎面走来,你可能会下意识地击掌,比如在你打电话的时候,别人给你任何东西,你都会下意识地接住。

行为克隆就是利用这个原理,将一部分场景与机器人的行为进行对应。确定了模仿学习的路径后,Mobile ALOHA其实还有一些问题需要解决。

首先是移动问题。在传统的行为克隆学习方法里,机器人可以学习各种原始技能,比如简单的“拾取”和“放置”,但是在现实生活中,更多场景需要机器人具备调动全身运动的灵活性,比如煎完虾滑后,需要机器人移步到身后的餐桌,将虾滑倒入碗中,这就要求机器人会举起锅、移步、转身、反手倒入等。

Mobile ALOHA通过将其安装在轮式底座上,扩展了原始ALOHA的功能,即低成本、灵巧的双手操纵木偶装置。

其次是如何在短时间内实现高效率数据搜集的问题。Mobile ALOHA通过执行监督行为克隆,与现有静态ALOHA数据集的联合训练,可以提高移动操作任务的能力。

最后则是复合性误差的问题。前面提到行为克隆模仿学习将“状态”和“行为”深度绑定,所以一旦机器人的“行为”产生误差,就可能改变预期的状态,从而下一个行为产生偏差。

为了解决这一问题,斯坦福团队从神经科学获得灵感,将独立的动作组合成一个单元,简单地说,就是将一系列“状态”进行打包,以单元为单位执行所有“动作”,这样就大大降低了误差,提升执行效率。

这一套方法叫做ACT算法(Action Chunking with Transformers,简称ACT),它的核心思想是将复杂的决策过程分解成更小、更易管理的“行动块”(action chunks),从而提高决策的效率和质量。

Mobile ALOHA不仅让大众享受了一场机器人做饭的视觉“盛宴”,更酷的是它让机器人的模仿学习能力又上了一个台阶,它在数据和算法层面的创新,为机器人迎来“ChatGPT时刻”带来更多可能性。


02

人形机器人,走到爆发前夜? 

2018年,从波士顿动力依靠机器狗火出圈之后,机器人赛道就开始被更多行业所关注。2022年10月,特斯拉首款人形机器人在AI Day上初次亮相,将这个赛道彻底推向高潮。

从此之后,从太平洋的东岸到西岸,各类机器人创业公司层出不穷。

一直以来,机器人赛道都在快速发展,且从来不缺竞争者。

比如特斯拉的人形机器人,2022年登上AI Day的舞台时,它还如一个老人步履蹒跚,需要人扶着;但到了2023年,Optimus Gen 2就已经能够和人类挥手致意,甚至90度弯腰屈伸。

1月底,Magic Lab人形机器人“翻跟斗”的视频在网上爆火,这是一家中国的人形机器人公司,因为跳跃、后空翻等场景的优秀表现,被网友称为波士顿动力的挑战者。

▲Magic Lab人形机器人

这样的机器人,甚至还会制作咖啡“拉花”。

▲Magic Lab人形机器人的咖啡拉花

再往前看,2023年8月,宇树科技发布H1人形机器人,它的行走速度超过1.5m/s,潜在的运动性能可以达到5m/s以上。

▲宇树科技人形机器人

2023年12月底,国内人形机器人公司优必选在港交所上市,被称为“人形机器人第一股”。按照规划,优必选的人形机器人主要聚焦在工业制造、商用服务和家庭陪伴等三大场景。

而回顾整个2023年,机器人的技术进步和产业发展也被市场普遍认为是除了AI和商业航天之外,全球范围内最重要的技术发展。

所以尽管如今人形机器人还处在起步阶段,但其中蕴藏的巨大潜力却早已经掩盖不住。

根据IFR和中国电子学会数据,参照其他电子产品渗透率超过20%后将爆发式增长,2023—2030年,按年均复合增长率30%测算,预计到2030年,我国人形机器人市场规模有望达约8700亿元。

▲图源:中商产业研究院

在这样的背景下,人形机器人及配件相关的投融资活动也相当活跃。

根据中商产业研究院最新统计数据显示,“截至2023年11月底,中国智能机器人行业投资事件数量达139件,投资金额达844.62亿元,投资领域包括人形机器人、智能仿生机器人、智能机械手、智能协作机器人等。”

到了2024年,虽然时间过去还不到一个月,人形机器人赛道却已经产生了2笔大额融资。

先是国内人形机器人研发公司“星动纪元”宣布获得由联想创投领投,金鼎资本、清控天诚跟投,老股东世纪金源超额追投的超亿元天使轮融资。不久之后,来自挪威的人形机器人初创企业1X Technologies(简称:1X)也宣布完成了1亿美元的B轮融资。1X在2023年就曾获得由OpenAI创业基金领投的2350万美元融资,成为Open AI投资的第一家硬件公司。

资本市场对人形机器人青睐有加,因为人形机器人赛道落地不仅会改变生产和生活方式,其众多零部件组建的上下游生态,也会形成一个巨大的配件生态供应链市场。

根据阿里云《中国机器人产业图谱及云上发展研究报告》显示,机器人产业链主要分为上游核心零部件研发与生产、中游本体制造和系统集成, 以及下游各行各业的具体应用等三方面 ,每一个环节都充斥着配件市场的新机遇。

▲图源:行行查研究中心

2023年10月,国家工业和信息化部印发《人形机器人创新发展指导意见》(简称《意见》)。《意见》的第一句话就开宗明义:“人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业发展格局。”

机器人将带动整个工业制造转型升级、可能成为新的支柱型产业已经成为一个可以预见的未来。

1972年,早稻田大学加藤实验室发明了世界上第一台人形机器人WABOT-1,它每走一步需要45秒,但它的第一步跨出人类人形机器人历史性的一刻。

52年后,载着大模型和多样化的技术路线,人形机器人或许也将迎来它的“ChatGPT时刻”。