在互联网刚刚兴起的时候,圈内流传着一条法则:“所有”的行业都值得重做一遍。如今,ChatGPT火爆全球,大家开始思考,X+AI等于什么?

机器人产业率先迭代,争相推出大模型加持的人形机器人。除了波士顿动力等老牌机器人企业,新能源车企、互联网大厂是这次竞赛中的新玩家,有人躬身入局自研产品,有人不惜重金大举投资。

今年2月,华为天才少年“稚晖君”离职创办智元机器人,不到半年就获得三轮融资,市场估值在十几亿美元。美国人形机器人创业公司Figure也在两个月内完成了两轮融资,炙手可热。

高盛预测,在技术得到革命性突破的理想情况下,人形机器人2025-2035年销量CAGR可达94%,2035年市场规模达1540亿美元。

马斯克放言,Optimus最终价格可能低于2万美元,预计3-5年内量产,产量达到数百万台。一旦产品成熟,量产数量将达到100亿-200亿台——超过了地球人口的数倍,市场空间将超越电动车。

中国官方给出发展目标,到2027 年,人形机器人技术创新能力显著提升,形成安全可靠的产业链供应链体系,构建具有国际竞争力的产业生态,综合实力达到世界先进水平。

目光所至,金钱追随,股市概念板块轮番上涨。继智能手机、电动汽车之后,人形机器人能否成为下一代爆发的超级终端?加速过程中,哪些环节会遭遇“卡脖子”,哪些环节具有高贝塔?


01

大模型重新定义AI

机器人称不上是新兴产业,从1927年美国西屋造出第一个机器人Televox,学界和产业界就开始了深入的研究,目标是让机器人“像人一样行动和思考”。

2016年,Google旗下Deep Mind开发的AlphaGo击败了人类棋手李世石,成为第一个战胜围棋世界冠军的机器人。李世石表示:“在围棋 AI 出现以后,我发觉即使自己成为第一名,也永远需要面对一个不可战胜的实体。”

同年登场的波士顿动力Atlas,踉踉跄跄地在碎石和雪地里行走,形似醉汉。然而短短几年的时间里,Atlas的运动能力突飞猛进,不仅能够流畅地奔跑,还学会了倒立和跳马、跳舞和跑酷,每次发布新视频,都能刷屏收获一片惊叹。

机器人在智慧和运动上展现的能力,已经超越人类的想象,但是人们期待的颠覆并没有发生——在不同行业、不同场景之间,复制AI能力的难度和成本都太高了。

在传统的深度学习模型中,人类需要投喂大量的“问题和答案”给机器去学习,机器在此基础上总结出方法论,再来解决类似的问题。一旦介入新的场景,就必须从头开始,收集数据、训练模型。这种“第三人称”的机器智能往往局限于特定场景,很难触类旁通。

而在大模型的加持下,机器能够与真实世界进行多模态交互,像人类一样感知和理解环境,并通过自主学习来完成复杂任务。由此,机器智能走向了第一人称的“具身智能”,拥有持续进化、跨场景应用的能力。

大模型接入机器人,无须额外数据和训练,将指令付诸行动,斯坦福大学李飞飞团队已经给出了成功案例VoxPoser。

实验中,研究人员给出指令:打开最上面的抽屉,注意花瓶。

大语言模型(LLM)由此作出推断:1)抓住最上面的抽屉把手;2)把手向外平移;3)要远离花瓶。

然后,在视觉语言模型(VLM)的指引下,从未经过培训的机器人绕过了障碍,打开了抽屉。这项技能不限于特定任务,开瓶子、按开关、拔充电线都能完成。

基于LLM+VLM的具身智能实践

在更多的实验中,VoxPoser还展现出超强的认知和推理能力:

首先是估计物理特性。给定一个滑板,两个滑块,直接提问“哪个更重”,于是机器人将两个滑块往下推,发现其中一个滑得更快更远,由此推理出这块更重。

第二是行为常识推理。告诉机器人“我是左撇子”,同时让它递送一个工具,那么它就会自动地把工具放到你的左手边。

第三是细粒度语言校正。对于需要高精度的任务,例如“用盖子盖住茶壶”,向机器人发出指令“你偏离了1cm”,它就会自动纠正。

第四是多步可视化程序。给定一个任务“将抽屉打开一半”,而机器人从来没有打开过这个抽屉,也不清楚一半的位置是哪里,但它却知道先把抽屉全部打开,再合上一半。

大模型重新定义了AI,也刷新了研究机构的认知。深耕机器人多年的Deep Mind承认,“由于大模型的出现,我们不得不重新考虑整个研究项目,之前研究的很多东西已完全失效。”

于是Deep Mind猛拉进度条,耗时7个月就发布了新一代机器人RT-2,将多模态大模型“塞进”机械臂,使得机器人能够理解包含数学逻辑推理的命令,比如“将香蕉放到2+1的总和的位置”,也能归类水果,“把草莓放到正确的碗里”。

集成电路上可容纳的元器件的数目,每隔 18-24 个月便会增加一倍,性能也将提升一倍,被称作“摩尔定律”。OpenAI报告显示,近年来人工智能训练任务所需求的算力每 3.43 个月就会翻倍,速度远超半导体行业的摩尔定律。

随着海量数据的积累、算力的提升与算法的突破,大模型参数规模大概率将呈现指数级增长。当模型足够大、数据足够多的时候,甚至可能跨越“奇点”,涌现出全新的智能。

然而,与商业模式清晰的AIGC不同,人形机器人要从实验室走向市场,还受制于高昂的成本。

2018年,本田宣布停止人形机器人Asimo的研发,转向研发更具实用性的案例,比如专业护理、道路交通等领域的机器人。2000 年以来,Asimo已经发布了七代机型,一度代表世界领先水平,但因为技术复杂、造价高达250万美元,始终未能实现量产。

同样造价的Atlas则活成了全民网红,精彩炫技无人买单。定价7.45万美元的机器狗Spot于2020年登上货架,当年官方公布的销售量(租借和出售)大约是250个,其后便没有更新数据。七年时间里,波士顿动力三易其主,从谷歌到软银再到现代汽车。

站在时代的分水岭上,后来者无疑是幸运的。大模型的突破将为人形机器人开拓更多应用场景,催生新的需求,引发规模效应实现降本,从而打开更大的市场,并促使企业研发更加先进的智能技术,形成技术-应用-成本的飞轮效应。

在这场激烈的角逐中,快速集齐智能技术、成熟供应链和应用场景三块拼图的玩家,有可能最先启动飞轮。


02

擎天柱的秘密武器

2021年的AI Day上,特斯拉人形机器人的概念图首次发布。

一年后,Optimus就以原型机真身示人,关节、骨骼、电缆等设备清晰可见,在现场行走挥手。而在演示视频里,它已经可以做一些简单的工作,比如在工厂搬运箱子、在办公室浇花。

今年10月的最新亮相中,Optimus已经学会了分拣不同颜色的积木,在人为打乱的情况下也能有序分类,并把颠倒的积木摆正。除此之外,还能平稳地完成单腿支撑的瑜伽动作。短短三年时间,Optimus在感知、大脑、运动与控制方面都进步神速。

不过,和“体育生”Atlas相比,Optimus显得平平无奇。但是很多人没有注意到,Atlas没有手指,只能完成开门、抓握等大动作,拿、捏、举、拉这些动作就超纲了。而Optimus却能像人手一样完成复杂灵巧的工作,并承担大约9公斤的负重。

更重要的是,Optimus实现了端到端的神经网络控制:仅仅通过视觉输入,就可以控制各个部件的动作,省去了一系列手动设计的中间步骤和特征提取过程。这就使得机器人具备自主学习能力,快速适应不同的环境。

看似后来居上,其实蓄谋已久。马斯克早就说过:“特斯拉可以说是全球‘最大’的机器人公司,因为我们的汽车就像轮子上的半感知机器人。”Optimus(擎天柱)的秘密就藏在名字里,如同变形金刚一样从四轮汽车人变身为双足机器人。

在核心的大脑部分,Optimus采用了与特斯拉电动车相同的全自动驾驶系统FSD和感知计算单元,以及自主研发的Dojo D1超级计算机芯片以及三颗Autopilot级别自动辅助摄像头。

在智能驾驶中,FSD算法利用传感器数据感知环境,并以此进行路径规划和决策。根据去年AI Day公布的数据,特斯拉已经积累 480 万段数据,训练 7.5 万个神经网络,每 8 分钟就要出一个新的模型,共有 281 个模型用到了特斯拉的车上,在此基础上已推出 35 个 FSD 更新版本。

而Dojo是人工智能的训练“道场”,将数百万辆汽车采集到的现实世界数据传输到超算系统,通过运算和分析,推动智能进化。以往特斯拉主要依靠英伟达的GPU构建训练机,每年需要支付数亿美金。自研芯片D1的诞生,不仅省下一大笔开支,更攻克了算力的“卡脖子”环节。

Optimus完美承接了车端的资源积累,并将受益于规模效应,大幅降低成本。不过,要实现具身智能,多模态的AI能力还有待提升。今年7月份马斯克宣布成立xAI,进军AGI,向微软、谷歌等巨头发出战书。

最近OpenAI董事会罢免创始人Sam Altman,引发700多名员工联名抗议:“OpenAI is nothing without its people”。一波三折之后,Altman回归并组建了新的董事会。在此期间,英伟达公开喊话,意图挖人。DeepMind据传已经收到来自OpenAI员工的简历。AGI人才之战,一触即发。

AI决定了机器人产品力的天花板,而硬件决定产品的落地程度。

与汽车不同的是,机器人要求更高的灵活度、精准度和稳定性,需要几十个关节完美配合,才能完成复杂动作。这是硬件中价值量较大的一块,也蕴藏着新技术方向的机会。

Optimus全身上下有40 个关节执行器,其中旋转关节14个,用在肩膀、手腕、腰、髋四个旋转部位。直线关节14个,用在手肘、手腕、髋、膝、脚踝5个部位,模拟人肌肉组织,提供强大的直线拉力。去年的AI Day上,单个线性执行器能拉起一台半吨重的音乐会三角钢琴。手指关节12个,其中大拇指处使用2套,使得拇指和手掌都能像人手一样弯曲。

旋转关节主要由谐波减速器和电机构成,也包括编码器、角接触轴承、力矩传感器等。据我们市场调研显示,样件价格单套旋转关节价值量2400-4100元,按照批量供应价格来计算,14套的价值量在2-3万之间。其中谐波减速器价值量最高,单台1000-2000元。

谐波减速器是众多减速器类型中的一种,具有传动比高、质量体积小、齿隙小可反向传动等优势,缺点是刚度低,主要应用在机器人轻载位置。另一种RV减速器抗冲击能力更强,传动效率也高,但是结构复杂、质量体积大,更多应用在工业机器人领域,做一些高负载的运动。经过多年的技术研发,中国制造已经打破了国际龙头的垄断,实现了国产谐波减速器的规模化应用。

来源:招商证券

直线关节主要由电机和行星滚珠丝杠构成,也包括点接触轴承、深沟球轴承、力矩传感器等,据我们市场调研显示,样件价格单套直线关节价值量3700-5000元,14套的价值量也在2-3万区间。其中行星滚珠丝杠价值量最高,单台约3000元。

在工业领域主要有三种丝杠,第一种是梯形螺纹丝杠,其实就是一个螺母套在螺杆上面。第二种叫做滚珠丝杠,在螺母和螺杆之间加了一些小钢珠,降低摩擦阻力,提升传动扭距。第三种就是行星滚柱丝杠,在螺母和螺杆之间,用滚柱取代滚珠,由点接触变为线接触,因此可承载的力矩、最高转速均有明显提升。

以往很少有高精尖的设备会用到行星滚柱丝杠,因此市场空间非常小,国内企业鲜有布局。人形机器人的需求兴起后,那些具有强大技术积累和资源能力的企业,有望在市场扩容中占据领先份额。

手指关节由于空间非常有限,运用了一种特殊的电机,叫空心杯电机。相比传统直流电机,空心杯电机用铜线圈取代了铁芯转子,优势在于无铁损传动效率高、体积小、功率密度高、可控性高、噪音低,之前主要应用于航空航天和医疗领域。海外三巨头占据了全球的主要份额,国内企业通过海外收购也在加速追赶,包括研发绕线技术。

此外,出于节能和稳定性的需求,双足机器人还需要克服重力势能,采用轻量化的新型材料,包括镁合金、钛合金、碳纤维材料等等。

据开源证券统计,Optimus的硬件成本超过一半,要达到 2 万美金售价还有84%的降价空间。在新能源汽车迅速崛起的浪潮中,国内供应链企业在技术研发、响应效率和差异化降本方面已经显露出优势,甚至诞生出世界领军的企业。人形机器人的科技浪潮中,我们期待新的黑马涌现。

Optimus投入使用的第一站,将会是特斯拉的超级工厂。加州、上海、德州、柏林、墨西哥五大超级工厂共有12.8万名员工,假设只是取代其中部分人力,也能创造数量可观的需求,开启产业化落地的进程。

当雇佣一个人形机器人的成本与同等劳动力的人类收入相当时,机器人将真正改变社会的生产力结构,走进各行各业与千家万户。这不只是万亿级的增量市场,更是一个充满无限可能的新纪元。