具身智能开创AI主动感知,拟人化学习的新时代,重点关注机器视觉和多模态大模型。

近日,“具身智能”概念被英伟达创始人CEO黄仁勋带火。

华尔街见闻·见智研究认为,具身智能带来的AI价值远比人形机器人更大。

具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈,而不是被动的等待数据投喂。

在人类的五大感官中视觉获取的信息占比超过80%,并且让机器理解人类语言也是非常重要的,所以机器视觉和多模态大模型正是开启机器自我感知学习的两把钥匙。


01

具身智能是什么?

具身智能简单来说就是AI的大脑加上躯体。

它能够跟我们生活的环境进行交互,从而展现出智能行为。

具身智能为什么被看作AI的iPhone时刻?

原来的人工智能可以看作第三人称的智能,也就是投喂数据给机器,让它学习什么它就学习什么。

而现在具身智创造了一种机器自主学习的新方式,能够以第一人称的视角来感知和学习物理世界,并像人类一样理解和感知事物的能力,才能在此基础上进行相同思维的发展,最后表现出人类期待的行为方式。

Windows为何能统治操作系统,iPhone为何创造智能手机时代,最重要的原因就是他们创造了最简单、最直观的人机交互窗口。

发展人工智能的意义在于能够让机器造福人类,协助处理事务,提高生产力;更进一步则是让AI进行创造,推动科学研究的进展。

而这一切的前提是:要让机器理解人类社会,要做到这一点,需要的就是具身智能。

见智研究认为,让AI拟人化的进行感知和理解世界方式,视觉和听觉是非常重要的。

看见并理解物理世界中存在的事物,并且能够听懂人类的语言这背后需要的是机器视觉技术和多模态大模型。

在具身智能领域的快速发展下,这两大领域的技术创新和需求也会与日俱增。


02

具身智能比人形机器人更有价值

具身智能相当于AI的大脑,而这个大脑的载体可以是任何形式。可以是一个机械臂,一只机器狗,更或者是一辆小汽车。

而反观人形机器人,当下为何被看做是一个不太聪明的钢铁巨人,核心还是因为缺少AI大脑+不太灵活的躯体。

就像马斯克所表示的,虽然未来有一天人人可能会拥有一个人形机器人,但是目前展现的Optimus人形机器人产品也就只能执行重复性的简单劳动。

见智研究认为,我们真正需要的人形机器人目前还缺少具身智能特质。

马斯克也表示:未来会将特斯拉的视觉技术用于人形机器人的研发中。

而对于具身智能和人形机器人所能够创造的价值,也非常明了了。具身智能的应用场景没有局限性,所以市场空间更广阔。


03

关注具身智能的硬实力

具身智能的硬实力包括:机器视觉和多模态大模型。

机器视觉是AI的感知工具,亦为数据生产的手段。在人类的五大感官中视觉获取的信息占比超过 80%。

机器视觉的端口是摄像头,作为看懂世界的“眼睛”;机器视觉的大脑是算法,承担分析功能。

见智研究认为,相比于单纯迭代硬件的参数指标,算法和架构的升级对于AI来说更重要。因为摄像头的发展目前已经可以实现对物体的数据采集,无论是清晰度还是色彩度都已经卷到了够用的程度。

值得关注的是,多模态大模型在机器领域的应用。无论是视觉图像信号还是人类语言的声音信号,最后都要转化为机器能够理解的语言,从而实现人机交互的目的。

从现阶段应用来看,目前最好的是谷歌的PaLM-E大模型(参数5620亿),可以将视觉和语言同时集成到机器人的控制中。

这种大模型最大程度的解决了需要人工对数据进行预处理和注释的繁琐流程,极大提高了机器理解的效率。

通过将PaLM-E大模型集成到控制中,能够直接通过摄像头的数据实现对机器执行命令,并且具备一定程度的抗干扰能力。


小结

AI的躯体其实并非是最重要的。

核心应该是发展AI大脑,打通人机交互方式,让AI能够主动感知物理世界,拟人化的思维路径才能做到人类期待的行为反馈。

机器视觉和多模态大模型正是开启这个世界的两把钥匙。