继ChatGPT大火之后，人形机器人能否迎来Sora时刻？

编辑:我爱机器人发布于:机器人资讯2024-02-214055

图片｜电视剧《西部世界》剧照

2024年才一开年，一款名叫Mobile ALOHA的机器人就因为“会炒菜”在X上出了名，还被各种大V轮番转发。

▲Mobile ALOHA 在做菜图源：斯坦福大学

可能很多人会有疑问，都2024年了，机器人会炒菜早已不是什么新闻，为什么这款机器人会如此备受关注？原因很简单，因为Mobile ALOHA的“炒菜”技术，和之前的炒菜机器人完全不是一回事。

传统炒菜机器人大多是滚筒结构，需要人工进行备菜，机器人按照设定的程序将配菜按顺序倒入滚筒，然后滚筒翻滚，在翻滚的过程中，机器人的调料瓶可以自动挤出调料。

但Mobile ALOHA却可以使用人类的案板和刀具、使用人类的灶具和炒锅，它也没有专属的调料瓶，而是如人类一样，用“手”拿起盐罐和酱油。总之，它如同真人一般，完成了一整套炒菜的流程。

只这一点，Mobile ALOHA就已经完全颠覆了传统机器人的工作方式。

2021年8月，马斯克首次公布了特斯拉的人形机器人计划。之所以选择人形机器人，是因为这是当前最适合人类生活环境的机器人形态，它不需要为了适配机器人的工作而改造环境，也不必为机器人单独制造额外的工具。

它完全可以像人一样，走人类所走的路、用人类的工具参与劳动。

但人形机器人一直存在一个很大的问题——学人走路很简单，学人做事却很难。

1月中旬，马斯克曾在X上展示了特斯拉的人形机器人Optimus Gen 2叠衣服的视频，在视频中，Optimus Gen 2 的动作仍然笨拙，并且这套展示还不是机器人自主执行的操作。

▲马斯克X平台截图

作为对比，Mobile ALOHA表现出来的能力，就更加具有冲击力了。

而Mobile ALOHA之所以能有如此亮眼的表现，关键在于斯坦福团队使用了行为克隆（BL）的方法，由人带着机器人针对某个动作重复操作50多次，之后机器人就能够自主完成相应的动作。

这种由人类直接参与的训练方式，与去年引爆ChatGPT的路径有许多相似之处。

2023年初，OpenAI推出的ChatGPT引爆全球，推动这一点的关键技术就是“人类强化反馈学习”，它通过将人类反馈作为“奖励”和“惩罚”引入AI训练，打破了原来大模型训练的瓶颈。

而现在，随着行为克隆（BL）方法在机器人训练上的使用，曾经一直桎梏人形机器人训练的技术也迎来新的突破。似乎，人形机器人正在迎来自己的“ChatGPT时刻”。

这一次，终于轮到了华人？

在世界科技发展的前沿，华人的身份总是在国内受到额外的关注。

比如大家会关注OpenAI的华人工程师，关注马斯克超过三分之一的华人团队，关注时代周刊“全球百大AI人物”榜单中的华人入围数量。

虽然华人在世界科技发展的前沿占据重要的地位，也做出过许多不可磨灭的贡献，但到目前为止，引领世界科技浪潮的华人角色仍然屈指可数。

但这一次不同，如果行为克隆（BL）成为打开人形机器人大门的钥匙，那华人也将站在世界科技变革的中心。

作为一款家政机器人，Mobile ALOHA由斯坦福大学的华人团队研发，其核心成员包括Zipeng Fu、Tony Z.Zhao和他们的导师Chelsea Finn。其中Zipeng Fu是项目共同负责人，他是斯坦福人工智能实验室计算机学博士生，也是谷歌Deep Mind学生研究员。Tony Z. Zhao则是斯坦福大学的计算机科学博士生。

▲Mobile ALOHA主创团队

虽然我们前面在讨论人形机器人，并认为Mobile ALOHA能够为人形机器人的训练带来变革，但从外观上讲，Mobile ALOHA和“人形”几乎毫不相关。

Mobile ALOHA的构造极其简单，1个移动底座（AgileX Tracer AGV）；两只手臂（ViperX 300），配有2个腕部摄像头和1个顶部摄像头，然后在底座上搭配有机载电源和计算设备。

它的实物长这样：

▲Mobile ALOHA样机

Mobile ALOHA的操作模式分为两种，一种是真人遥控操作，另一种是全自动操作。

在遥控模式下，操控者可以将自己的腰部和底座连接，通过扭动腰部直接驱动轮子实现移动控制，同时，操作人员可以通过后端的机械臂控制前端的机械臂。而在自动模式下，这一切都由计算机在统一操控。

和特斯拉Optimus Gen 2的演示视频并非机器人独立操作的一样，X平台上广泛流传的Mobile ALOHA的演示视频也并非由机器人独立完成，而更多是两种模式混合下的操作结果。

▲X平台截图

但即便如此，Mobile ALOHA的操作，也给机器人训练带来巨大的突破。比如像炒个虾仁、擦拭酒瓶、冲洗盘子等简单的动作，只需要操作员手把手带着机器人重复50次，机器人就能够学会并自主操作。

这个过程，就类似小时候，妈妈手把手带着我们握笔和写字一样。但模仿学习的过程对于人类来说，其实并不容易，对机器人来说就更是如此了。

2018年，波士顿动力一段机器人翻跟头、跨越障碍的视频在网络上走红，成为国内对人形机器人最早的科普。大家当时普遍惊讶于波士顿动力的机器狗，对于特技动作的控制能力，但实际上，对于机器人来说，实现翻跟头、跳跃、鞠躬，要比实现做家务简单多了。

这种现象有一个专有名词——“莫拉维克悖论”。

这个概念是人工智能和机器人学领域的先驱汉斯·莫拉维克提出的，它描述了在计算机和机器人系统中一个有趣且非直观的现象：对于人类来说简单的感知和运动任务，对计算机和机器人而言却异常困难；而相反，人类认为复杂的逻辑和抽象思维任务，对计算机来说却相对容易。

Mobile ALOHA之所以能够如此轻松地完成一些简单动作，关键在于斯坦福团队在机器人模仿学习能力上的突破。

模仿学习有几个“难啃”的骨头。

比如复杂的感知能力和环境适应能力，模仿学习要求机器人需要高度发达的感知能力，包括视觉、听觉、触觉等多种感官输入的综合处理，以理解和模仿人类行为。

比如精确的动作复制能力，人类的动作细微且流畅，机器人如果要精确复制，不仅需要复杂的机械结构，还需要高度精确动作控制算法。

最后还有机器人的多样性和泛化能力，人类可以将学过的技能在多种不同场景中复用，但对于机器人来说，每一个新的场景都是一次新的学习。

为了应对这些难题，机器学习领域开发了各种不同的模仿学习方法，其中主流的方法有三个，包括行为克隆（BL）、逆强化学习（IRL）和生成对抗模仿学习（GAIL）。

对于Mobile ALOHA，它的目标只是为了完成简单动作，泛化要求低，且希望在短期内看到效果。所以他们选择了行为克隆（BL）的方法。

简单来说，行为克隆是一种将观察映射到行动的方法。比如我们看到有人举着手向你迎面走来，你可能会下意识地击掌，比如在你打电话的时候，别人给你任何东西，你都会下意识地接住。

行为克隆就是利用这个原理，将一部分场景与机器人的行为进行对应。确定了模仿学习的路径后，Mobile ALOHA其实还有一些问题需要解决。

首先是移动问题。在传统的行为克隆学习方法里，机器人可以学习各种原始技能，比如简单的“拾取”和“放置”，但是在现实生活中，更多场景需要机器人具备调动全身运动的灵活性，比如煎完虾滑后，需要机器人移步到身后的餐桌，将虾滑倒入碗中，这就要求机器人会举起锅、移步、转身、反手倒入等。

Mobile ALOHA通过将其安装在轮式底座上，扩展了原始ALOHA的功能，即低成本、灵巧的双手操纵木偶装置。

其次是如何在短时间内实现高效率数据搜集的问题。Mobile ALOHA通过执行监督行为克隆，与现有静态ALOHA数据集的联合训练，可以提高移动操作任务的能力。

最后则是复合性误差的问题。前面提到行为克隆模仿学习将“状态”和“行为”深度绑定，所以一旦机器人的“行为”产生误差，就可能改变预期的状态，从而下一个行为产生偏差。

为了解决这一问题，斯坦福团队从神经科学获得灵感，将独立的动作组合成一个单元，简单地说，就是将一系列“状态”进行打包，以单元为单位执行所有“动作”，这样就大大降低了误差，提升执行效率。

这一套方法叫做ACT算法（Action Chunking with Transformers，简称ACT），它的核心思想是将复杂的决策过程分解成更小、更易管理的“行动块”（action chunks），从而提高决策的效率和质量。

Mobile ALOHA不仅让大众享受了一场机器人做饭的视觉“盛宴”，更酷的是它让机器人的模仿学习能力又上了一个台阶，它在数据和算法层面的创新，为机器人迎来“ChatGPT时刻”带来更多可能性。

人形机器人，走到爆发前夜？

2018年，从波士顿动力依靠机器狗火出圈之后，机器人赛道就开始被更多行业所关注。2022年10月，特斯拉首款人形机器人在AI Day上初次亮相，将这个赛道彻底推向高潮。

从此之后，从太平洋的东岸到西岸，各类机器人创业公司层出不穷。

一直以来，机器人赛道都在快速发展，且从来不缺竞争者。

比如特斯拉的人形机器人，2022年登上AI Day的舞台时，它还如一个老人步履蹒跚，需要人扶着；但到了2023年，Optimus Gen 2就已经能够和人类挥手致意，甚至90度弯腰屈伸。

1月底，Magic Lab人形机器人“翻跟斗”的视频在网上爆火，这是一家中国的人形机器人公司，因为跳跃、后空翻等场景的优秀表现，被网友称为波士顿动力的挑战者。

▲Magic Lab人形机器人

这样的机器人，甚至还会制作咖啡“拉花”。

▲Magic Lab人形机器人的咖啡拉花

再往前看，2023年8月，宇树科技发布H1人形机器人，它的行走速度超过1.5m/s，潜在的运动性能可以达到5m/s以上。

▲宇树科技人形机器人

2023年12月底，国内人形机器人公司优必选在港交所上市，被称为“人形机器人第一股”。按照规划，优必选的人形机器人主要聚焦在工业制造、商用服务和家庭陪伴等三大场景。

而回顾整个2023年，机器人的技术进步和产业发展也被市场普遍认为是除了AI和商业航天之外，全球范围内最重要的技术发展。

所以尽管如今人形机器人还处在起步阶段，但其中蕴藏的巨大潜力却早已经掩盖不住。

根据IFR和中国电子学会数据，参照其他电子产品渗透率超过20%后将爆发式增长，2023—2030年，按年均复合增长率30%测算，预计到2030年，我国人形机器人市场规模有望达约8700亿元。

▲图源：中商产业研究院

在这样的背景下，人形机器人及配件相关的投融资活动也相当活跃。

根据中商产业研究院最新统计数据显示，“截至2023年11月底，中国智能机器人行业投资事件数量达139件，投资金额达844.62亿元，投资领域包括人形机器人、智能仿生机器人、智能机械手、智能协作机器人等。”

到了2024年，虽然时间过去还不到一个月，人形机器人赛道却已经产生了2笔大额融资。

先是国内人形机器人研发公司“星动纪元”宣布获得由联想创投领投，金鼎资本、清控天诚跟投，老股东世纪金源超额追投的超亿元天使轮融资。不久之后，来自挪威的人形机器人初创企业1X Technologies（简称：1X）也宣布完成了1亿美元的B轮融资。1X在2023年就曾获得由OpenAI创业基金领投的2350万美元融资，成为Open AI投资的第一家硬件公司。

资本市场对人形机器人青睐有加，因为人形机器人赛道落地不仅会改变生产和生活方式，其众多零部件组建的上下游生态，也会形成一个巨大的配件生态供应链市场。

根据阿里云《中国机器人产业图谱及云上发展研究报告》显示，机器人产业链主要分为上游核心零部件研发与生产、中游本体制造和系统集成，以及下游各行各业的具体应用等三方面，每一个环节都充斥着配件市场的新机遇。