AI发展的下一站在哪里?“算力霸主”英伟达创始人兼首席执行官黄仁勋给出了答案:具身智能/具身人工智能。


01

特斯拉与英伟达站台,“具身智能”爆火

两大科技巨头齐齐站台,“具身智能”成为继ChatGPT后最火爆的存在。日前,Optimus和NVIDIAVIMA在海外科技巨头布局人形机器人赛道掀起 “人形机器人”浪潮。

5月16日,特斯拉2023股东大会展示了Optimus人形机器人最新进展,包括捡起物品、环境发现和记忆,基于AI模仿人类动作,能完成分类物品的复杂任务。从视频中能够看到,特斯拉机器人取得全方位进展,运动控制能力持续进化,AI能力大幅提升。

5月17日,NVIDIA创始人黄仁勋在ITF2023年半导体大会上向观众介绍了多模态人工智能技术NVIDIAVIMA,VIMA能根据视觉、文本提示执行任务。除此之外,其他海外科技巨头也加快布局人形机器人,谷歌PaLM-E作为多模态具身视觉语言模型,不仅能够理解图像,还能理解、生成语言,执行各种机器人指令而无需重新训练;微软持续探索将ChatGPT扩展到机器人领域,从而运用语言直观控制机械臂、无人机等,而早在3月28日,Ope-nAI领投挪威机器人制造商1XTechnolo-giesA2轮投资,以创造具有实际应用价值的机器人。

NVIDIA创始人黄仁勋  

NVIDIA创始人黄仁勋认为,下一波人工智能浪潮是“具身人工智能”,即能够理解、推理并与物理世界互动的智能系统;不同于传统机器人仅具有“物理”执行力,大模型可通过将图像、文字、具身数据联合训练,引入多模态输入,进而提升大模型和环境的交互能力和学习能力,为机器人注入了“灵魂”。


02

何为“具身智能”,赋予机器人灵魂

具身智能指的是智能体通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力。换言之,一个具身智能机器人需要:首先听懂人类语言,之后分解任务、规划子任务,移动中识别物体,与环境交互,最终完成相应任务。正如斯坦福大学计算机科学教授李飞飞所说,“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”

“具身智能”最初可追溯到1950年,当时图灵在论文《Computing Machinery and Intelligence》中首次提出了这一概念。但在之后的几十年中,具身智能都没有取得特别显著的进展,大多数机器人的行动依旧仰赖人类的手写指令与代码。

这也是为何上文那个谷歌“史上最大‘通才’AI模型”能引起业内轰动——它无需预先处理的场景,因此也不用人类对相关数据进行预处理或注释。只需要一句简单的指令,便可实现更为自主的机器人控制。更重要的是,PaLM-E生成的行动计划还具有“弹性”,即可对周围环境变化做出相应反应。

谷歌PaLM-E以多模态为主要特征,切实地与物理世界产生交互

从这点来看,“具身”所指代的,便是客观物理存在的“身体”,对于身体所承载的“认知” 带来的各种影响。认知不能脱离身体单独存在。与"具身 相对的概念是“离身”(Disembodiment),指的是认知与身体解耦。

“智能”粗略定义为智能体(生物或机械)与环境交互后,通过自身的学习,产生对于客观世界的理解和改造能力。具身智能机器人,可以简单理解为各种不同形态的机器人,让它们在真实的物理环境下执行各种各样的任务,来完成人工智能的进化过程。这种“具身智能”的进化,是纯软件系统当中的进化替代不了的。

最新的人工智能研究发现,智能生物的智能化程度,和它的身体结构之间,存在很强的正相关性。也就是说,对于智能生物来说,身体不是一部等待加载“智能算法”的机器,而是身体本身就参与了算法的进化。今天地球上所有的智力活动,都是生物通过自己的身体,直直切切地与环境产生交与之后,同时自身的学习和进化所遗留下来的“智力遗产”。这个过程,已经被大型的计算机模拟实验所证实。

而在具体应用中以扫地机器人为例,有了具身智能的扫地机器人,能够自我学习之后,把以前它扫不到扫不干净的地方,慢慢找到好的方法扫得更有效率和成果,因为你的扫在机在更熟悉自己身体的情况下,慢慢变聪明了。还有你如果用路径规划,其被你点播得多了自己也更熟悉这个环境,下次自己可能就能找到一条更有效率的行动轨迹了,并且真正做到无死角,只要它能进去就能扫好。整个过程如同一个老家政,来你家十几次后干得那样,明显让用户感到有进步。

如果将AI其具象化,给这个大脑赋予“身体”,那么就会是另一种形态,比如AI+汽车=智能汽车,AI+机器人=具身智能机器人,再或者,在未来某个时点AI+汽车+机器人=变形金刚也是有可能的。随着技术更迭,具身智能的出现会持续引领“大模型+机器人”潮流,而马斯克推出的人形机器人Optimus无疑是其中极具代表性的作品。

现有机器人的学习模式为“旁观型学习”,训练数据来自互联网,只能学到数据中心的固定模式而非现实世界的第一人称视角,无法从真实世界中直接学习,也无法适应真实的世界。具身智能是通往通用人工智能的关键钥匙,赋予机器人实践学习的能力,而实践性学习使得机器人像人一样,通过物理身体与环境的互动来学习,主动感知或通过做任务的方式来感知世界,具身智能机器人将是人工智能的终极形态。


03

科技巨头各展所长

探寻具身智能的实现路径

对于极具潜力的成长潜力的居身智能市场,各大科技巨头也是铆足了劲儿想要争夺更多市场话语权。除了前面提到特斯拉与英伟达外,目前谷歌、微软等技术团队、众多顶尖研究院所和高校已探索具身智能的发展落地。

微软,ChatGPT for Robotics:在微软研究院发布“ChatGPT for Robotics” 文章中,研究者使用ChatGPT大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等机器人,ChatGPT带来了一种新的机器人应用范例。

微软ChatGPT for Robotics研究者使用ChatGPT大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码

在Microsoft Research 的 ChatGPT for Robotics 文章中,研究者使用 ChatGPT生成机器人的高层控制代码,从而可以通过自然语言和ChatGPT交流,使用 ChatGPT来控制机械臂、无人机、移动机器人等机器人。

目前实验已经能够通过给 ChatGPT的对话框输入指令,让其控制机器人在房间中找到“健康饮料”“有糖和红色标志的东西”(可乐),以及一面供无人机自拍的镜子。

谷歌,视觉语言大模型PaLM-E:今年3月,谷歌与德国柏林工业大学的一组人工智能研究人员公布了视觉语言模型PaLM-E(Pathways Language Model with Embodied),集成了5400亿参数量的PaLM模型和220亿参数量的视觉ViT(Vison Transformer)模型,总参数量达到5620亿,是目前已知的最大的视觉-语言模型。

谷歌PaLM-E是目前已知的最大的视觉-语言模型

PaLM-E模型具备多模态能力,能够观察物理实体世界的信息,由大模型进行分析理解,再将决策结果反馈至物理世界,由此沟通物理和虚拟两个世界。该模型在多任务中表现了强大的感知能力,机器人可以在要求下从抽屉里拿东西,然后走过去递给人;研究人员要求机器人将“绿色色块推到乌龟旁边”的指令,即便机器人之前没有见过这只乌龟摆件,也能完成任务。

同时,PaLM-E通过分析来自机器人摄像头的数据来实现对高级命令的执行,而无需对场景进行预处理,这消除了人类对数据进行预处理或注释的需要,并允许更自主的机器人控制。

Meta,SAM分割模型:2023年4月6日,Meta 推出一个AI模型 Segment Anything Model(SAM分割一切模型),能够根据文本指令等方式实现图像分割。SAM 任务目的:零样本( zero-shot)或者简单 prompt 下,就对任意图片进行精细分割。

SAM证明,多种多样的分割任务是可以被一个通用大模型涵盖的。SAM 做到的分割切并不是 CV大模型的终点,我们期待一个模型可以无监督完成分割、检测、识别、跟踪等所有 CV 任务,届时视觉大模型应用会得到极大发展。

伯克利的LM-Nav模型:UC Berkeley、波兰华沙大学联合谷歌机器人团队发表论文《LM-Nav:具有大型预训练语言、视觉和动作模型的机器人导航系统》,该模型结合了三种预训练模型,从而无需用户注释即可执行自然语言指令。

其中,大语言模型(LLM)用于完成自然语言处理的任务;视觉和语言模型(VLM )将图像和文本信息进行关联,即用户指令和机器人视觉感知的外部环境进行关联;视觉导航模型(VNM)用于从其观察到的信息中直接进行导航将图像和将要执行的任务按时间进行关联。


04

政策驱动,AI+机器人快速落地

人形机器人应用需求大,在智能制造、智能服务、人机协作等方面都将有广阔的应用场景。特斯拉股东大会上,马斯克称特斯拉的长期价值将主要来自人形机器人,并预测人形机器人需求将达100亿台,远超汽车,如果机器人与人的比例为2:1,需求将达到200亿台。

据麦肯锡报告,到2030年,全球约有4亿个工作岗位将被自动化机器人取代,按20%渗透率和15万-20万人形机器人单价来测算,全球人形机器人市场空间可达到12万亿—16万亿元。中性预测下,2030年全球人形机器人市场规模855亿元,2021—2030年市场规模CAGR可达到71%。根据中国电子学会数据,国内机器人2024年有望达251亿美元市场规模,2020—2024年CAGR约22%。

面对如此高成长的市场,我国发布了不少行业扶持政策。2023年1月,工信部等十七部门发布《“机器人+”应用行动实施方案》,该政策明晰了“十四五”期间机器人行业的发展目标。5月19日,科技部部长王志刚在2023第七届世界智能大会开幕式暨创新发展高峰会上表示,将加大人工智能基础理论和前沿技术研发布局,打造一批人工智能区域高地和技术平台。

此外,地方政府出台具体行动方案,落实顶层设计。4月下旬以来,北京市印发《北京市机器人产业创新发展行动方案(2023—2025年)(征求意见稿)》,明确指出,成立人形机器人产业开放联盟,到2025年,建成人形机器人通用行为控制大模型服务开发平台、共性技术服务平台、后陆续印发《北京市促进通用人工智能创新发展的若干措施(2023—2025年)(征求意见稿)》和《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023—2025年)》,以推动人工智能发展取得变革性、颠覆性突破。

而在诸多利好政策的推动下,整个具身智能领域也有望进入爆发式发展阶段。