进入2023年,机器人产业似乎迎来了历史性的“创新大爆炸”时刻,其中,人形机器人的发展,更是备受市场关注。

在2023世界机器人大会上,160余家国内外机器人企业携近600件展品参展,其中60款新品为全球首发。展会上十余款人形机器人的展示,更是让大众看到了产业在人形机器人上积蓄已久的蓬勃活力。

人形机器人正在成为机器人行业发展的一个必然趋势,相较于其他形态的机器人,人形机器人最大的特点,就是像人。

那么,作为人类的聪明苦力,机器人为什么非得是“人形的”?大模型的突破与爆发,又将给人形机器人带来什么机遇和挑战? 


为什么我们需要人形机器人?

显然,相较于其他形态的机器人,人形机器人最大的特点,就是像人。其实这种形态主要就是为了满足我们人类的情感与审美需求,并且基于我们人类能信赖的形态才能最大程度的走入我们生活。

事实上,从“机器人”这个词的起源来看,“机器人”就和“人形”有着紧密的联系。一般认为,“机器人”一词来自生于波西米亚的剧作家卡雷尔·卡佩克(Karel Capek)在1921年的剧作《罗萨姆的万能机器人》(Rossum’s Universal Robots)。在这部作品中,一位哲学家研制出一种人造劳工,这些人造劳工外貌与人类相差无几,被资本家大批制造来充当劳动力。

因此,大部分人认为,卡佩克就是“机器人”一词的创造者。虽然在卡佩克之前,就有人设想和制造过类似于机器人的概念和物件,比如中国古代多个朝代都有人制作类机器人的物件、达芬奇设计的一款能动的骑士,只不过,后来这些都被逐步纳入卡佩克使用的“机器人”这个词汇之下。

这也让我们看到,在机器人一开始的设想里,基于人形的机器人就被认为能够更好地充当人类的劳动力。马斯克不止一次强调,人类文明所面临的最大风险之一就是人力短缺,人类更应该将精力放在脑力劳动而不是体力劳动上。然而,要让机器人更好地充当人类劳动力,就需要让机器人也适应我们人类的生活。因为我们的社会是根据人类本身来设计的,而一个像是人类的机器人,就能够很好满足这一条件。

比如,我们之所以把机器人做成人形,不用轮胎而用双脚行走,正是为了适应移动时的环境。人类希望机器人的活动范围不被局限于路面上,而是能够像人一样的灵活行动,为了更好的替代人类的职业。

而具备人形并且能直立行走的类人机器人,在我们人类社会与生活中就能更自然的应对楼梯和我们的各种建筑设计,还可以跟我们人类一样,自如的应对生活空间中存在着各种可以在步行过程中跨越的高低差。尽管如今全社会都为了照顾轮椅使用者而努力推广无障碍设施,但人的行动范围里仍免不了存在障碍物。因此,对于机器人来说,仅仅像扫地机那样避开地板上的障碍物显然是不够的,机器人还要时不时上下楼梯。

只有基于人形的机器人,才能够最大程度的对应我们人类的社会,才能实现最高效率的劳动力。也就是说,把机器人做成“人形”的理由之一,就在于机器人执行任务时所处的环境其实是迁就人类的体型建造起来的。衣服、桌椅、杯子、手机、汽车等等,人们眼中的这个世界,全都是为了方便人类这种“人形”生物才如此设计的。如果出现了新形态的机器人,人们就必须重新设计一套机器人能够适应的全新环境。

另一方面,则是需求所致。在很多领域,机器人作为服务者,只有人类的外表才更容易被接受。比如,产后护理、幼儿陪伴、老人看护等——人类与人形机器人更容易产生情感上的交流,才能更被信赖。


大模型给人形机器人带来了什么?

当然,人形机器人的发展也受制于技术,以至于在过去的几十年里,人形机器人都没有得到什么真正的突破,而这次AI大模型的爆发,却给了人形机器人一个新的机会。那么,为什么说以GPT为代表的AI大模型的爆发,对于人形机器人来说是一次重大突破?

究其原因,虽然在更早以前,智能算法就赋予了人形机器人一定的“智能”,但根本上来说,智能算法在类人语言逻辑层面并没有真正的突破,这就使得基于智能算法的人形机器人和智能依旧没有什么关系,依然停留在大数据统计分析层面,超出标准化的问题,机器人就不再智能,而变成了“智障”。

可以说,在以GPT为代表的AI大模型出现以前,市场上的机器人在很大程度上还只能做一些数据的统计与分析,包括一些具有规则性的读听写工作,所擅长的工作就是将事物按不同的类别进行分类,与理解真实世界的能力之间,还不具备逻辑性、思考性。

因为人体的神经控制系统是一个非常奇妙系统,是人类几万年训练下来所形成的,而此前的机器人不论是在单纯的AI思考性方面,还是在与机器人硬件的协调控制方面,都还只是处于起步阶段。也就是说,在ChatGPT、GPT-4这种生成式语言大模型出现之前,我们所有的人工智能技术,从本质上来说还不是智能,只是基于深度学习与视觉识别的一些大数据检索而已。

但GPT技术却为机器人应用和发展打开了新的想象空间。GPT为机器人带来最核心的进化就是对话理解能力,就是具备与拥有了类人的语言逻辑能力。

那么为什么说具备类人的语言逻辑能力,拥有对话理解能力是GPT为机器人带来的最核心、也最重要的进化?因为语言理解不仅能让机器人帮助我们安排日常的生活和工作,而且还能帮助人类去直面一下科研的挑战,比如对大量的科学文献进行提炼和总结。

无论是谁,仅凭自己的力量,都不可能紧跟科学界的发展速度。比如,在医学领域,每天都有数千篇论文发表。哪怕是在自己的专科领域内,目前也没有哪位医生或研究人员能将这些论文都读一个遍。但是如果不阅读这些论文,不阅读这些最新的研究成果,医生就无法将最新理论应用于实践,就会导致临床所使用的治疗方法陈旧。在临床中,一些新的治疗手段无法得到应用,正是因为医生没时间去阅读相关内容,根本不知道有新手段的存在。如果有一个能对大量医学文献进行自动合成的机器人,就会掀起一场真正的革命。

而GPT之所以被认为具有颠覆性,其中最核心的原因就在于其具备了理解人类语言的能力,这在过去我们是无法想象的,我们几乎想象不到有一天基于硅基的智能能够真正被训练成功,能够理解我们人类的语言。

不久前,在联合国在日内瓦举办的“AI for Good”全球峰会上,九个人形机器人相继亮相,并且跟人类进行了沟通与对话。机器人不仅展现出了自己的情绪,还能和人类记者谈笑风生,似乎对于这种场合已经非常熟练。一个穿着护士制服、留着可爱波波头的医疗机器人还说:“我将与人类一起工作,提供帮助和支持,并且不会取代任何现有的工作”。


人形机器人的机遇和挑战

可以说,ChatGPT的成功,也为人形机器人带来了发展的拐点,但在机遇到来的同时,挑战也在到来。

比如,ChatGPT虽然为机器人带来类人的对话理解能力,但ChatGPT在模仿人类神经元的过程中,在模仿人类学习与语言逻辑能力的过程中,也把我们人类的一些恶习给模仿了过去,比如人类一本正经胡说八道的能力。也就所谓的AI幻觉,而目前,AI幻觉仍无解法。

此外,ChatGPT显然还不具备,或者说还未达到我们人类的这样一种阅读与文字理解能力了,因为它的背后还是基于强大的算法,还是基于计算机对于0和1的编码为基础的一种运算识别机制。但是这种机制已经具备了相当的理解准确性与逻辑性,这也正是大语言模型让我们感到意外的地方,就是基于强大的算力,它已经具备了相当程度的理解能力和学习能力。

当我们给它提供一段文字,一篇文章的时候,它就能够从中非常快速的总结与提炼出要点,并且这些学习与理解的能力与速度,远超我们人类的能力。就像我们人类的思考和学习一样,比如,我们能够通过阅读一本书来产生新颖的想法和见解,人类发展到今天,已经从世界上吸收了大量数据,这些数据以不可估量、无数的方式改变了我们大脑中的神经连接。

AI大型语言模型也能够做类似的事情,并有效地引导它们自己的智能。可以预见,以GPT比人类更为强大的学习能力,再结合参数与模型的优化,GPT将很快在一些专业领域成为专家级水平,它们的进化速度也会超越我们的想象。

而将这种能够理解自然语言、具备自主进化能力的AI大模型接入机器人,就解决了人形机器人的一个非常核心的问题,那就是智能大脑。因为智能机器人的两大核心:一是智能大脑;二是灵活的物理形态。这两项技术都获得了突破,并实现商业化应用的时候,也就意味着真正的人机协同时代全面到来。

目前,医疗领域的人形机器人正在加速发展。谷歌和亚马逊都已经做出布局,谷歌声称自己发布了首个全科医疗大模型——Med-PaLM M,不仅懂临床语言、懂影像,还懂基因组学。亚马逊则发布了AI 医疗应用HealthScribe,HealthScribe可以帮助总结医生就诊的情况并创建临床文档,包括转录并分析医患讨论、添加人工智能生成的见解等。

可以说,医疗机器人很快就会真正落地,从问诊机器人到手术机器人 ,医疗行业将会经历一场全面的AI化。这不仅将非常有效的解决当前医生医疗水平之间的差异,还会最大程度的解决就医难的问题。大部分的常规疾病的诊断都将可以由机器人医生所取代。在这样的基础上,可以预见,未来必然会出现基于人形机器人技术,打造一个基检查、诊断、手术,也就是内外科为一体的全能型机器人医生。

而在服务业领域,基于人形的智能机器人将有望取代保姆、保安之类的职业。不仅可以当助手、管家、厨司,还可以为我们提供专业的护理服务。尽管目前的智能大脑可以还不具备超级智能的能力,还不具备自我意识的能力,但这丝毫不影响智能机器人以其强大、专业、友好的知识能力成为我们可信赖的朋友。

可以说,人形机器人将很快走入我们的生活,以后我们不再需要担心养老、不用担心保姆、不用担心找不到女朋友或者男朋友,人形机器人统统可以帮助我们搞定;甚至不久后,交警、城管、法官、治安巡逻、厨司之类工作,或许就不再需要人类,统统由人形机器人上岗取代。