人形机器人再一次成为了科技圈关注的焦点,在刚刚结束的世界人工智能大会上,无法亲自到场的马斯克送来一个人形机器人模型。

于是,参会者在听完了大模型相关的演讲后,纷纷围在了这个人形机器人的玻璃罩外头,也让机器人成为大模型之外讨论最多的话题。

我们能从一些大会安排和内容里感受到话题的热度。在这场大咖云集的开幕式上,马斯克以远程视频的方式率先开讲,他表示,随着算力爆炸式增长,机器计算与生物计算的比例这一重要指标正不断提高,这意味着随着时间推移,相对于机器,人类智力在地球上的总体思维能力中所占的比例将越来越小。他预言未来,地球上机器人的数量将超过人类。对于特斯拉正在开发的人形机器人Optimus。他说:“特斯拉的目标是让机器人取代人类从事重复、乏味和危险的工作,机器人的高效率将帮助人类告别资源短缺,迎来一个富裕的时代。”

图|马斯克在世界人工智能大会上发言

不得不说,只要面向公众讲话,马斯克的发言总充满了“画饼”的味道,事实证明多数的承诺也不能按时完成。但是人形机器人的走红是无可置疑的。在大会举办前后,多个国内行研机构集中发布了多个机器人产业研究报告,机器人概念股也在近期有明显波动,嘴上说信不信并不重要,热钱进场,才是最诚实的行动,可以说机器人的一举一动,都在牵动着科技关注者、市场投资人的心。


看好,人形机器人要站起来了

人形机器人是公认的“头顶上的明珠”,相比于四只脚、狗形态的机器人,双足设计本身就会带来困难,简单说,要维持机器人用双足稳定站立和行走,就需要在机器人的关节设计(力量要够)、控制算法(走得稳)上下大功夫,更别说更高难度的跑、跳、完成其他任务。

还记得曾经的波士顿动力吗?这家过去绝对的明星机器人公司,开发过整个行业里性能最好的机器人,启发一代机器人爱好者投身其中,但近两年因为商业化受阻(成本太高),逐渐在市场上失去了声音。波士顿动力开发的机器人是极致运动能力的代表,而随着近年尤其是特斯拉发布了人形机器人计划之后,行业的风向开始改变。

图|波士顿动力人形机器人Atlas

为了让机器人拥有接近人类的能力,特斯拉的思路是在机器人内搭载大算力芯片,结合深度神经算法,让机器人成为一个智能系统的载体。其思路在于,你不需要在造出来之前把所有知识写进机器人内,而是让其拥有一个可以持续学习的”大脑”,这背后需要算力、模型等基础能力的成熟。

图|特斯拉人形机器人

然后故事就讲到了今年,各个国家对智能机器人产业的支持政策一个接一个推出。大模型技术的面世,让人工智能技术快速进入到人们的生活里,整个科技行业对智能机器人的兴趣空前提高,他们或许不指望机器人能够具备超强的运动能力,帮人类完成所有繁杂工作,但一定程度的智能化,就足以让机器人在人类生活、工业生产中扮演完全不同的角色。

于是,这个行业的未来想象力正在被飞速打开,全球各地的科技大厂都在尝试将AI大模型与机器人结合,打造更通用的机器人。比如,在放出了ChatGPT的大招之后,OpenAI在今年3月投资了一家挪威人形机器人公司1X Technologies,研究方向就是人形机器人。目前1X Technologies已经开发出了轮式双臂机器人EVE,同时,他们还在研发双足机器人NEO。

图|1X Technologies的机器人产品

作为另一家AI巨头,Google旗下的DeepMind在今年6月发布了RoboCat,将大模型的能力应用于机器人上,通过学习人类动作1000次后,DeepMind的RoboCat机械臂能够完成物体的分类和拾取任务。相关科学家表示:“我们证明了一个单一的大模型可以在多个机器人实体上解决多样化的任务,并且可以快速适应新任务和机器人实体。”

OpenAI和DeepMind两家大模型领域的巨头玩家出手就是最强的信号。

以及在5月份的ITF World 2023半导体大会上,英伟达的创始人黄仁勋在演讲中提到,下一波人工智能浪潮将是一种被称为具身AI的新型人工智能。具身AI能够理解、推理并与物理世界互动,也就是具备了具身智能。藏在服务器里的智能系统要如何与物理世界互动?机器人自然就是那个充满想象力的“具身智能”。

国内的科技公司也在积极行动。近期有报道称,字节跳动也挺进机器人行业,他们的团队计划扩充到百人规模;今年4月,小米成立了机器人技术公司,此前在2022年8月,小米发布了一款名为CyberOne的机器人产品;此外,腾讯RoboticsX机器人实验室在今年也将AI模型应用到了机器狗上;在阿里巴巴的通义千问大模型的支持下,用户可以通过钉钉对话框直接使用自然语言命令远程指挥机器人;6月份,华为成立了极目机器,致力于机器人和智能制造领域的发展。

新一轮机器人热潮中兴起的项目和公司能够坚持多久,这的确是一个有待验证的问题,毕竟组建一个机器人团队、支持他们的研发工作需要巨大的资金投入,这在当下的市场气氛里本来就是一个挑战。

但这些信息总归是让人乐观的,巨头纷纷到场就是一个最大的利好消息,在二级市场,人形机器人和相关产业链公司股票表现活跃,受到市场的追捧。


人形机器人+大模型,会发生什么?

机器人的研发和发展通常沿着底层到顶层的路径,即先动起来、灵活地动起来,最后才能考虑智能与否的问题。

目前大规模应用的各类机器人,能够快速商业化的大多具备几个特点:功能单一、使用场景固定、需求明确,比如工业机械臂和扫地机器人等。笼统地说,就是智能化程度不够高,脑子不够好用。

从技术上来说,这是AI应用过于单一化的体现,只能完成特定动作,比如扫地机器人能识别障碍并绕开。而要实现从单点智能到全局智能,还需要持续升级硬件、算力、算法和数据等要素,实现人与机器人之间与人与人之间相似的互动体验,这也是实现人形机器人商业化发展的重要一步。

在大模型大火的2023,这一过程开始变得更有希望,这也是今年讨论人形机器人的正确方式。

假设人形机器人所需运动能力已经足以支撑各种高强度运动,在这种情况下,软实力就是最为关键的部分。

过去几年用过智能音箱的用户大概能感受到,这些连流畅对话都做不到的智能设备,通常会让人难以相信智能机器人会有很好的表现。而通用大语言模型已经树立了一个榜样。大模型可以直接应用于机器人,这将极大地提升机器人对真实世界的认知能力,同时也会使人机交互能力有一个飞跃式的提升。

这个过程已经在业界进行当中,今年上半年,阿里和百度分别将通用大语言模型首先应用于其旗下的天猫精灵和小度智能音箱。

然而,目前人形机器人面临的首要任务仍然是提升其运动能力。如果以人类运动能力为标准,至少要让人形机器人能够达到及格线以上。(是的,目前市面上可以看到的人形机器人,即使在基本运动能力方面,仍然未达到及格线,这并不是说人形机器人的运动能力差,而是因为人类运动能力实在太强)。

据了解,一些机器人公司正在利用ChatGPT提升人形机器人的运动能力。例如,国内机器人公司优必选已经在使用类ChatGPT的大模型进行运动规划,通过该模型对长序列、长周期的动作序列进行拆解。通过大模型进行人形机器人的运动规划有一个好处,即可以提升机器人在动作执行过程中的决策和规划能力。

这其中体现了大模型的通用性,如果人形机器人在运动规划方面也具备这种通用能力,那么理论上,一旦人形机器人学会在某一种地形上行走,它就能自动适应并在所有地形环境中自由行走。换句话说,行走就成为人形机器人的一个目标。一旦在一个环境中实现了这个目标,人形机器人就能在更多环境中自适应地完成这个目标。

这样的人形机器人具备感知运动智能,甚至具备一定的认知能力,通过这一不断学习、泛化的过程,人形机器人完成了一次高维度的进化,这才是智能机器人的终极奥义。


写在最后

回看这几年科技行业对人形机器人的关注过程,最初波士顿动力作为整个赛道的中坚力量,后来逐渐因商业化原因逐渐沉寂,但其核心的能力值得称道,其设计理念和运动能力上的突破也影响了整个行业的发展;后来接力棒被特斯拉接过,特斯拉凭借其强大的技术实力和独特的技术路线提出了自己的方案;再到今年,通用大模型被认为是解开人形机器人发展难题的一把黄金钥匙。

图|波士顿动力的机器狗

在持续推翻技术路线和切换道路中,一个通往人形机器人的道路正在铺开,展望未来,就像大模型已经在各个行业裂变出行业特定模型一样,搭载行业大模型的机器人也将进入各个行业。

然而,要实现这一目标,仍需解决两个关键难题。首先是硬件本身,关键零部件的技术突破对于具备优秀运动能力的人形机器人至关重要。其次是软件难题,人形机器人尚缺乏足够的场景数据,来训练具备通用人工智能能力的大模型,以推动其自我进化。

当我们看到了具体的问题本身,就是解决问题的开始,就像如今的机器人行业前所未有地看清了这条前进的道路。或许在未来的三年、五年内,通用人形机器人平台甚至某些特定场景中的人形机器人产品都有可能问世。

这是一个让机器人团队再次兴奋起来的时代,一个拨开迷雾,看见满眼希望的时代。