最近一段时间里,大模型与机器人的结合非常引人注目,从斯坦福大学李飞飞教授团队提出“具身智能”,到最近宇树,智元等品牌的“国产之光”。在数天前的2023世界机器人大会上,人形机器人在现场表演起了各种技能,将科幻照进现实,各家企业都把自己的机器人相关产品搬到了现场大显神通。事后统计发现,参加大会的共有160家国内外机器人企业,600件机器人,其中又以人形机器人最出风头。著名的波士顿动力创始人Marc Raibert、日本著名机器人学家石黑浩都不远万里的前来参会。

毫无疑问的,人形机器人正在成为资本市场的新热点。一级市场上,BV百度风投、经纬、高瓴、高榕、真格等都在一线积极调研,前半年聊大模型的风投现在都在关心通用机器人。二级市场上,人形机器人概念股都热炒了几波。五月时马斯克的一番话直接导致A股机器人概念“赛摩智能”一波冲高涨停,“丰立智能”也在六个交易日内涨涨超150%,甚至引起深交所的关注,要求说明股价涨幅较大的原因及合理性。


特斯拉的推动

在今年特斯拉股东大会上,马斯克说到:“人形机器人Optimus对运动和力量的控制以及环境感知方面有显著加强,技术正在快速迭代。预计未来机器人的需求可能会达到100亿,甚至更多。如果以人类和机器人的比例为2:1推算,那么对人形机器人的需求可能会比电动汽车的还大不少。”就凭借此寥寥数语,马斯克的信心、热情和投入很快点燃了人形机器人赛道的火焰,并有愈演愈烈的趋势至今。而从实际应用的角度来看,推动整个产业链走向成熟和完善的可能也是特斯拉。

特斯拉的人形机器人Optimus首次亮相是在去年官方的2022 AI Day活动上,并在现场完成了自主行走、转身、停止、挥手问候等动作。Optimus的技术大部分与特斯拉汽车的一致,如机器视觉,以及处理视觉数据、做出行动决策、支持通信交流的“大脑”,还有最重要的与特斯拉汽车一致的芯片,还搭载与特斯拉车辆同源的FSD电脑以及Autopilot相关神经网络技术,预计最终售价不超2万美元,约合14.4万元人民币。

从实际技术的角度来说,特斯拉这种企业做机器人有先天性优势,因为机器人与AI的很多基本原理都是相同的,而且也可以视为电动车的自然延伸,电动车可以视为第一代的四轮机器人。前两年马斯克提出要做机器人时引来不少说他“不务正业”的嘲讽,然而今年年初,理想汽车确定的愿景是成为最优秀的AI和机器人公司,而非全球最大的电动车企业。由此可见梦想也是会传播的。


机器人的新方向

机器人现在已经屡见不鲜,决定人形机器人能走多远的是任务泛化能力,这也是很多企业正在发力的方向。之前已经说过的宇树和智元等“国产之光”在此不再赘述,还有其他初创企业同样值得关注,比如月泉仿生,其机器人产品的灵巧性已经能和人手相媲美。公司自主研发的类人仿生智能灵巧手在外力干扰下可以通过主动移动、屈曲、翻转等动作调整,以保持手持物体不掉落。官方对其表述为:“除了基础的抓握、按压等动作外,还可以完成27种不同的手部复杂精细操作,比如使用筷子夹取细小物体、涂抹护肤品、搅拌咖啡、刷手机、解扣子等。”灵巧手采用拉压体驱动技术,拥有极高自由度。同时内置了柔性传感器,具有触觉神经反馈。

此外还有浙江大学控制学院机器人团队的“悟空-4”人形机器人,据介绍,“悟空-4”可适应室外路面、草丛、泥泞路面等多种地形,最快前进速度可以达到6公里/小时,还能跳高0.5米,还可以通过上下25度的斜坡和10厘米高台阶。在路面打滑和外部推力干扰等未知扰动下,可快速恢复平衡并保持稳定行走。“悟空-4”通过融合腿足运动技术与环境感知技术,实现了机器人的三维环境地图构建和自主动态导航。

这些新品机器人的背后,是企业与高校自主研发的一系列软硬件技术:基于本体感知驱动器的人形机器人本体;使用自研高扭矩密度模块化关节以及一体化结构设计;以高强度合金、碳纤维和工程塑料等先进材料,保留美观外形,提高了结构的强度和稳定性;再加上大语言模型,配以先进的力控算法,具备高动态性能的同时能更好地理解人类。

从投资人追捧、头部科技公司入局,到创业公司和高校的创新研究,眼下人形机器人正在多个方向齐头并进,迎来新的发展阶段。比如集成大模型,给它装上大脑,这也是推动人形机器人热潮的另一关键技术变量。

之前曾经说过,“具身智能”就是“有实际的身体并支持物理交互的智能体”,相当于给AI加装身体,属于通用机器人新的发展路径。资本去给行业再添一把柴火,经过五年到十年的大规模投入,让它烧的更旺,最终实现通用机器人的商业化。过去很长一段时间里,机器人的发展都是仅限于完成某一类特定工作,正如曾经同样局限性很大的AI。大模型是逐渐发展到AGI的,与机器人的结合自然也可以拓展机器人的应用范围。

相比国内,国外的进展更快一步,已经把大模型的能力从语言升级到执行层。七月时李飞飞团队的机器人已经可以拉抽屉、拧瓶盖、称苹果了。月底时谷歌DeepMind推出的Robotics Transformer 2(RT-2),继续在同一方向深入研究。RT-2是一个全新的视觉+语言+动作(VLA)模型,可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。RT-2表现出了更好的泛化能力,理解范围已经超出它所接触到的机器人数据的语义和视觉范畴,且能解释新指令并通过执行基本推理来响应命令。


注定坎坷之路

常言道“理想很丰满,现实很骨感”,机器人与AI在加速发展的同时还有很多现实的技术难题和商业化挑战。有说法认为通用机器人领域也需要GPT-4这样的技术或产品,才能把多模式能力结合在一起,真正统一具身智能的发展。但这并非易事,目前论文和一些demo展示的机器人与大模型结合还是偏重解决交互问题,但并不是解决交互问题后,机器人就能变成了通用机器人。从机器人的发展历程来看,大模型的确有贡献但对底层控制和执行的影响有限。目前学术界采用AI驱动的方法,普遍希望把强化学习的方式做底层的控制执行,但这又和大模型没有直接关系,且强化学习的控制方法也不成熟,大部分还停留在学术研究阶段。

另一个难题在于软硬件能力的协同进化上。虽然很多人都推崇大模型与机器人的结合将带来颠覆性的机会,波士顿动力创始人Marc Raibert却表示,未来的机器人技术发展过程中,硬件工程和软件同等重要。“有些人认为软件可以克服硬件上所有的问题和限制,我并不赞同这个观点。只有最好的硬件设计师和软件性设计师倾力合作,才能够设计出世界上最好的机器人。”

此外在安全性上也需要改进。大模型的“AI幻觉”可能不会造成什么实质性影响,但一旦进入生活,机器人就需要保证准确度和安全性,这些都是技术需要改进的方向。技术、场景、成本、安全,机会和挑战正在同时到来,人形机器人正迈出了通往未来的关键一步。