2024年伊始,斯坦福大学的Mobile ALOHA机器人火了。在开发者团队发布的几个视频中,机器人完成了一系列精准操作:切菜、炒菜、冲咖啡、浇花、拖地、刮胡子、晾衣服、开瓶盖、逗猫等,接管了大部分家务。

虽然我们不能得知它的菜炒得有没有楼下大排档师傅好吃,但从形态上Mobile ALOHA的每一项家务都有模有样。甚至在逗猫的任务中,猫咪似乎没有意识到拿着逗猫棒的是一个具有机械手臂的机器人

Mobile ALOHA的横空出世打破了人们对于人形机器人应用的偏见,即:之前很多人认为人形机器人应首先用于工业场景。而斯坦福团队的突破,展示出人形机器人进入消费场景和家庭的速度可能会弯道超车。甚至很多机构都预言:

2024是人形机器人元年。

▲ Mobile ALOHA正在逗猫


01

这一次,为什么我们如此惊叹?

Mobile ALOHA的前身为该团队发布的一个在桌面操作的两臂机器人ALOHA(一个低成本的开源硬件系统,A Low-cost Open-source Hardware System)。在原始固态机器人的机器上,Mobile ALOHA的升级在于添加了工业领域中较为成熟的自动引导技术(Automated Guided Vehicle)移动底盘,使得Mobile ALOHA可以成为一个可以真正随地移动的全伺服机器人。

值得一提的是,这一个使得Mobile ALOHA火爆出圈的关键技术是来自中国的公司:松灵机器人。

Mobile ALOHA并不是第一次出现在大众视野的人形机器人。

2019年9月,波士顿动力公司就展现过可以360度翻跟头和跑酷的Atlas;

2022年8月,小米公司也发布过能够独立行走的Cyber One;

2023年11月,另外一个以普林斯顿大学为首的研究团队也发布过基于大语言模型(Large Language Models)的家务机器人TidyBot,在该团队发布的演示视频中,TidyBot也具备整理房间和收拾垃圾等家务功能。

▲ TidyBot正在清洁地面

那么为什么Mobile ALOHA能够从以往的人形机器人产品中脱颖而出,使得不少人发出“这不妥妥就是我们梦寐以求的保姆机器人”的惊叹。

第一,Mobile ALOHA展现出更多的接地气的生活相关技能。在Mobile ALOHA之前,人形机器人大多偏向于工具运用,而在面向消费者的日常服务中长期缺位。

例如,特斯拉人形机器人Optimus的主要任务是在汽车工厂进行搬运、浇水植物、移动金属棒等任务,却不涉及面向普通人的服务。

少数服务领域的机器人也仅能从事单一任务,而Mobile ALOHA展现的做菜、刷盘子等多任务技能则关系到每一个人的日常生活,契合了这个时代人类对于机器人提供服务的期望。

第二,Mobile ALOHA足够便宜且完全开源。

根据开发团队介绍,Mobile ALOHA成本仅为32,000美元加上50次重复演示,市面上的双手(臂)机器人成本可高达200,000美元。而且,开发团队公布了软件代码和硬件组成,任何人从理论上来讲都可以自己组配出一个Mobile ALOHA。

第三,在项目的github主页上,作为华人主导的开发团队贴心地设置了中文界面,并为中国观众上传了B站的展示视频。

故而,这可以让更多中国观众了解和接触到Mobile ALOHA项目,况且在Mobile ALOHA的做菜视频中三道菜均是粤菜,这也抓住了中国观众的胃和心。


02

人形机器人,我们才刚刚开始

在开发团队发布的视频中,Mobile ALOHA的很多高级的技能均属于遥操作(Teleoperation)而非自主技能(Autonomous Skills)。

例如,视频中的炒菜、浇花等都属于遥操作,无法脱离人类的背后操纵。而且就算对于自主技能执行的任务,Mobile ALOHA现有的平均成功执行率仅有90%不到,这离大规模商用还有很长一段路。

与传统偏工业运用的人形机器人不同,偏服务的人形机器人需要面对更加复杂的任务环境。在工业制造环境中,任务相对比较标准化,机器人只需要根据程序执行特定的任务即可。

例如,考虑一个物流机器人,它的任务就是物品从A地送到B地,它不需要理解地点和物品是什么,只是根据算法进行路线规划完成任务。

但如果这个机器人是一个料理机器人,它正在执行送药的服务,机器人需要识别药是什么?怎么抓取?给的什么人用?更进一步,这个机器人能在什么样的房屋类型(楼房、平房等)使用?

商业和服务环境中的人形机器人更需要产生对外部的深层次“感知”,即:

借由人工智能技术,理解复杂物理世界各种物件的“含义”,并能够灵活地自主规划和决策,完成服务任务。

制造人形机器人并不是现代人的专属。无论是女娲还是普罗米修斯,在中西方的神话传说里,都有神仙按照自己的样子去创造人类的故事。于是人类学起了众神,开始了“造机器人”之路。在古代,虽然没有人形机器人的概念,但劳动人民也会稻草扎成人的形状驱赶来偷食庄稼的鸟虫。这一实践暗含了人类会将服务于人的工具进行人形化制作的朴素思想。这个设计理念也延续到工业时代,许多工具或者物件都被赋予人的元素。

▲ 卡通人形开瓶器

人形机器人通常被描述为拥有与人类相似的身体构造和动作模式,如双脚行走和双手操作。

虽然没有统一的定义,专业著作《Humanoid Robots》中提出:

这类机器人应能在人类的生活和工作环境中运作,使用人类设计的工具和设备,并能与人类进行交流。

基于这一概念,人形机器人通常被设计为具有类似人类的头部、躯干和四肢结构,能够进行双足行走,使用多指手进行各种任务,并具备一定的认知和决策能力。

人形机器人在使用上拥有两方面的优势。

从使用端来说,人形机器人拥有和人类相似的外表和行为有利于促进人类的接受。当人形机器人表现出人类独有的能力时,人类不会产生那么大的反感。当然,过度人化则会造成“恐怖谷效应”,这是后话。

更重要的是,从设计端出发,现实世界中的所有设施(如:街道的宽度、房屋的高度等)均是按照人体设计的,当机器人具有人类形状时,则人类可以在无须改变环境的前提下运用机器人。例如,我们不需要专门为机器人设计道路,它可以通过人类的道路通行。

此外,人形机器人可以使用人类的工具,使得人类不用专门为机器人配备工具,这也方便机器人根据人类的演示进行模仿学习,进而扩展到多任务中。

▲ 熊猫机器人优悠正在和两位人类相声演员表演


03

以具身智能破解莫拉维克悖论

人形机器人的发展离不开对“莫拉维克悖论”的追问。莫拉维克悖论,由人工智能和机器人学的专家提出,展示了一个与常规看法相反的现象。这一悖论指出:

与传统观点相反,人类独特的高级智力任务,如逻辑推理,实际上需要的计算资源相对较少。然而,人类的无意识技能和直觉,如运动协调,却需要大量的计算力。

从进化论的角度来说,很多简单任务的执行是无意识的,所以人类会认为毫无费力。以扫地为例,这个过程涉及识别物体、运动、扭转和倾倒等步骤,是一个极其复杂的任务。但是对于人类而言,扫地根本谈不上是一个复杂的工作。

人类拥有快速的图像处理能力,知道哪些是垃圾,哪些不是。例如,地上存在一个钥匙和一个纸团,我们会很容易去把纸团扫进簸箕,而俯身将钥匙拾起放在桌上。更不用说机器人的物理运动涉及多个部件的协同。这使得机器人执行扫地任务变得异常困难。

造成机器人难以完成人类任务的一个重要原因是传统的机器人技术均是一种旁观学习,或者叫第三人称智能。例如,对于ChatGPT,其所收到的信息是人类转述给他的,而不是它自己的“理解”。这类人工智能仅能学习到数据中心的固定模式,但无法在真实世界中直接学习,因此对于真实世界的适应能力较差。

而具身智能则可以打破莫拉维克悖论,使得机器人拥有感知外界信息的能力,让机器体像人一样能够与环境交互感知、自主规划、决策、行动、执行任务,从而转变为主动学习,或者叫第一人称智能,并积极适应真实世界的复杂环境。

目前,以英伟达CEO黄仁勋为代表的专家均认为多模态的具身智能(Embodied AI)是人工智能发展的下一个形态,甚至是最终形态。

人形机器人作为具身智能中最重要的一环,简单来说,

具身智能赋予了人工智能一个物理身体,通过传感器收集环境信息,利用机械执行器进行物理操作,或者通过机器人等具体实体和人类及环境进行实时互动,这就使得机器人可以将人类感觉简单的工作进行分解,并模仿人类的行为步骤,为机器人完全执行全系的人类任务提供更多可能性。

需要指出的是,具身智能并不完全等同于人形机器人,根据用途和场景的差异,具身智能也可以是电动汽车、飞行器等。但对于人形机器人,跟人类似的感官结构也更加强化了具身智能所创造的价值。例如,人形机器人的主视觉传感器放置在眼睛位置,这就有助于帮助人形机器人以类似于人类的方式感知物体。


04

“飞”入寻常百姓家

过去十二年,中国先后出现了劳动年龄人口达峰和人口总量达峰两个重大转折点,未来人口将呈现一定幅度的下降趋势。

根据国务院发布的《中国发展报告2023》,出生率延续降低水平将主导中国人口变化的长期趋势,预计未来年度出生人口约每十年下一个百万台阶。

从人口长期变化趋势来看,劳动力的成本不断攀升,使用人形机器人充当“家庭保姆”是未来一个不错且必然的选择。

▲ 中国人口总量变动情况及其预测(1949-2050)

来源:联合国官网

再看当下的家庭机器人需求数据,一份由Report Linker发布的报告估计,2023年家用机器人市场的规模为79.8亿美元,预计到2028年将达到189亿美元。这一增长预计将在2023年至2028年的预测期内以18.81%的年复合增长率(CAGR)发展。

但请注意,现有的家用机器人仅仅是诸如扫地机器人这种仅能完成单一任务类型的机器人,从绝对意义上来说离真正的具身智能机器人还有非常大的差距。

如果真有一个可以完成炒菜、叠被子等多的家庭功能用机器人,想必市场需求必然会呈井喷之势。

在制造端方面,目前中国的优必选已经实现将人形机器人运用于一些新场景中,成功实现了人形机器人的初步商业化。2022年,优必选公司开发的大型人形机器人Walker X在沙特阿拉伯的未来城市NEOM正式投入使用,成为该市第一代大型人形机器人市民,并开始提供智能服务,这是大型人形机器人首次被整合进城市社区的例子。

优必选创始人周剑也认为“家庭落地场景才是人形机器人最具潜力的应用市场。”但家庭环境比较复杂,且难以标准化,必须在技术持续升级中找到最适合家庭的人形机器人技术支持和解决方案。

中科院院士乔红也曾表示:

“人形机器人集成高端制造、新材料等先进技术,进一步融入人工智能学习算法后,有望全面再现人的肢体行为能力,并通过持续演化无缝利用人类当前全部基础设施,大面积替代各类高风险和重复性工作,因此成为国际科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。”

▲ 优必选Alpha 1S在春晚舞台表演

根据人民网研究院发布的《人形机器人技术专利分析报告》,中国已成为人形机器人技术专利申请数量和有效专利数量最多的国家,累计申请数量已达6618件,领先欧美日韩等国家及地区。值得一提的是,诸如Mobile ALOHA或者特斯拉Optimus的技术团队均有华人(裔)的身影。

2023年11月2日工业和信息化部印发《人形机器人创新发展指导意见》,其主要内容是:

加速和推动人形机器人的技术创新体系,确保核心部软硬件的安全有效供给。拓展人形机器人在医疗、家政等民生领域服务应用。培育2-3家有全球影响力的生态型企业和一批专精特新中小企业,打造2-3个产业发展集聚区,提升人形机器人工具操作与任务执行能力。

2023年11月4日工业和信息化部部长表示:

未来产业具有前瞻性,人形机器人和元宇宙等领域将成为新一轮科技革命和产业变革的重要标志。

2023年12月21日,全国工业和信息化工作会议在京召开,会议提出2024年要出台未来产业发展行动计划,瞄准人形机器人、量子信息等产业,重点突破关键技术、培育重点产品、拓展场景应用等。

这一切均说明,人形机器人将是中国未来的科技发力点之一,成为智能制造业的新引擎。人形机器人在2024年或许会成为最火的硬科技赛道,产业技术创新涌现出无限可能。繁荣之下,人形机器人的发展也面临着一些挑战和问题。

想要打造一个人形机器人如今已不算难事,但想要批量生产出一台人人都能买得起的人形机器人仍然面临着重重难题。人形机器人在家庭应用层面其实还涉及很多伦理、隐私、法律,甚至是社会问题。

当然,目前摆在发展人形机器人面前的最大问题还是AI的技术问题,如人形机器人工作场景中亟需处理速度更快,鲁棒性、可扩展性和适应性更强的通用型算法。但等技术问题解决以后,真正人形机器人产品落地的那天,还需要更多中国智慧去解决技术以外的诸多问题。