造一个真正能烧饭的机器人堪比“登月”，GPT能破解这一难题吗

编辑:我爱机器人发布于:机器人企业2024-03-243569

日前，OpenAI为其重金押注的人形机器人Figure 01装上了GPT“大脑”。能识别周围环境看清“眼”前的物品，能推理和决策下一步行动，还能通过记忆反思对行为作出评价——通过自我学习做到这一切，Figure 01的表现令人惊呼它已“无限接近人类”。

一直以来，无法应对未知情况是机器人亟需提升的能力短板，以至于看似简单的烧饭被业界视为“登月式的目标”，至今没有一个机器人能做到。GPT的出现，则为机器人再造一个精明而实用的“大脑”提供了可能。比起文本生成、文生视频，能做出一个帮你烧饭洗碗打扫屋子的智能机器人或将是大模型更具意义的一个应用方向。

——编者

如今，从上海到纽约，世界各地的餐馆里，都有机器人烹制美食。它们制作汉堡、印度薄饼、披萨，还会炒菜。其烹饪方式与过去50年间机器人制造其他物品的方式大致相同：精确地遵循指令，一遍又一遍地以相同的方式执行相同的步骤。

美国南加州大学计算机科学博士伊沙卡·辛格却想造一个真正能做饭的机器人：这个机器人能走进厨房，在冰箱和橱柜里翻找食材，并将其巧妙结合，烧出一两道美味的菜，然后摆好餐具。

这种连一些孩子都能做到的简单事情，截至目前，没有一个机器人能做到。要做到这件小事，需要机器人对某个厨房有充分的了解，还需要掌握很多常识，并且得足够灵活多变、足智多谋，以至于机器编程无法实现。

辛格表示，最大的问题在于机器人研制者使用了经典的规划管线。“他们在形式上定义了每个动作及其前提条件，并预测其效果。”她说，这种规划管线规定了环境中所有可能或不可能的事情。即使经过多轮实验，即使编写成千上万行代码，但由此创造的机器人还是无法应对其程序未曾预知的情况。

辛格的导师、美国南加州大学计算机科学教授杰西·托马森表示，这个烧饭的场景“始终是一个登月式的目标”。如果机器人能胜任人类的任何日常琐事，许多行业将发生巨变，人们的日常生活将变得轻松。

要实现这一目标，机器人需要“换脑”。长期以来，人们都希望在机器人体内植入一个精明而实用的大脑，但过去几十年一直找不到这样的大脑。不过，ChatGPT的横空出世，为机器人“换脑”燃起了新的希望。

这个计算机程序以及越来越多的其他大语言模型，能够根据用户的需求生成文本，模仿人类的口头和书面语言。ChatGPT目前已经接受了大量有关晚餐、厨房、食谱的信息训练，几乎可以回答机器人提出的关于在特定厨房中将特定食材烧成一顿饭的任何问题。

大语言模型具备机器人所缺乏的东西——人类笔下关于几乎一切事物的知识，从量子物理到韩流音乐，再到三文鱼片的解冻。同样，机器人也具备大语言模型所缺乏的东西——能够与周围环境互动，将语言连接到现实行动中。

将无意识的机器人和无身体的大语言模型拼合起来，似乎是唯一合乎逻辑的做法。正如一篇论文所述，“机器人可以充当语言模型的‘手和眼睛’，而语言模型则提供关于任务的高级语义知识。”

ChatGPT让机器人“顿悟”

2022年末，ChatGPT的发布对Levatas公司的工程师来说“像是一个顿悟时刻”。

这是一家专门设计巡视检查工业场所所需软件的公司。借助ChatGPT和波士顿动力公司的技术，该公司拼出了一个机器狗原型。这只机器狗可以说话、回答问题，并能够遵循以一般英语口语给出的指令。此外，机器狗似乎不仅能理解单词的含义，还能掌握背后的意图。比如A说“后退”，B说“退后”，它“知道”他们表达的是相同含义。有了机器狗，工人们便不再需要仔细查看上一次巡检时的机器数据表，他们只需简单地询问：“你上次去的时候，有哪些读数超出了正常范围？”

Levatas借助ChatGPT和波士顿动力公司的技术，打造出一个机器狗原型，可以遵循口语指令，完成对工业设备的巡检。（图片来源：Levatas官网视频截图）

Levatas利用自主开发的软件将系统组合在一起，而其中很多关键组件——语音转文本系统、ChatGPT、机器狗本身，以及文本转语音系统——现在都已实现商业化。不过，这并不意味着家家户户很快就能拥有会说话的机器狗。Levatas的机器狗之所以能稳定运行，是因为它的使用局限于特定的工业环境。没有人会让机器狗去玩接球游戏，或者让它想办法处理冰箱里的茴香。

在日常生活中，机器人能做的事情仍然有限。对于任何传统机器人来说，无论其行为多么复杂，它们都只有数量有限的传感器来获取有关环境的信息，如摄像头、雷达、激光雷达、麦克风、一氧化碳检测器等。这些传感器与数量有限的机械臂、机械腿、夹持器、轮子或其他机械部位相连接，机器人内部的计算机将其感知和行动联系在一起，它负责处理传感器数据和程序员发出的任何指令。计算机将信息转换成0和1的编码，代表电流通过电路的“关”（0）和“开”（1）。通过软件，机器人可审查其可以执行的有限行动，并选择最符合指令的行动。然后，它向其机械部件发送使之行动的电信号。此后，机器人通过传感器掌握其行动对环境的影响，并再次做出响应。

机器学习令机器人的智能程度上了一个台阶。它的运行基于一种“神经网络”，计算机电路的0和1被类比为层层排列的细胞，每个细胞通过数百个连接点发送、接收信息。机器“大脑”为每份输入的信息分配权重，“细胞”将所有这些权重累加，以决定保持静默还是“触发”，即发送自己的信号给其他细胞。

正如像素越多照片细节越丰富，模型拥有的连接点越多，其结果就越精确。在机器学习中，所谓学习就是模型调整权重，不断接近人们想要的答案。过去15年，当机器学习经过训练来执行专门化的任务，例如寻找蛋白质折叠，或在面试中遴选求职者，它表现出了惊人的能力。

大语言模型是一种不限于专门任务的机器学习形式，这些模型可以谈论任何事情。由于这些模型的回答只是对单词组合的预测，所以程序实际上并不懂自己在说什么，但使用者懂。而且，大语言模型以简单的对话运行，使用者无需特殊培训或工程知识，任何人都可以用英语、汉语、西班牙语、法语或其他语言与它交流。

当你给大语言模型输入提示（可以是问题、请求或指示），模型将你的话语转换为语汇相互关系的数学符号表达。然后，这些数学符号被用来进行预测：在所有数据中，如果对这个提示的回答已经存在，那么它可能是什么？最后，模型再将结果所示的数字转换回文本。大语言模型中所谓的“大”，是指可供其调整的输入信息权重数量。2018年，OpenAI推出首个大语言模型GPT-1，据称有约1.2亿参数，其中大部分是权重，但也包括模型的诸多可调整方面，而GPT-4则拥有超过一万亿参数。

正是因为大语言模型有这么多参数需要微调，并且在它们的训练集中有如此多的语言数据，所以这些模型通常能够作出恰当的预测。“大模型的（理解力）飞跃体现在我们不需要再给出很多背景信息，比如厨房是什么样子的。”托马森解释，“这个系统已经一遍又一遍地掌握食谱，所以当我说‘做土豆饼’时，系统知道步骤应该是‘找到土豆、找到刀、刨土豆’等等。”

惊人语言理解力如何化为行动

然而，与大语言模型连接的机器人是一个失衡的系统：无限的语言能力接入一个只能完成少部分人类任务的机器人躯体。如果机器人只有一个两指夹持器，那么它不可能精巧地给鱼剔骨。如果被问及怎么烧晚饭，那么大语言模型将从数十亿个词语中获取答案，但它提出的答案机器人无法执行。

除了这些内在的限制，辛格、托马森等人还指出，真实世界引入了随机性，即使机器人再“聪明”可能还是难以应对。比如，改变窗帘悬挂的位置会改变光线从物体反射的方向，因此房间里的机器人无法用摄像头看得那么清楚；再比如，一个适用于圆形橙子的夹持器可能无法稳稳拿住形状不那么规则的苹果。

美国布朗大学机器人学家斯特凡妮·泰莱克斯认为，现在的情况是，语言理解力惊人，但机器人很糟糕。致力于研究机器人语言理解的她指出，机器人必须变得更好，才能跟上理解力的前进脚步。

辛格认为，有一个办法也许能解决这个问题，这种方式已被证明可使大语言模型避免数学和逻辑错误，即在提示中同时包含问题和解决办法的示例。因为大语言模型并非为推理而设计，于是研究人员发现，当提示的问题后紧跟解决类似问题的示例，包括对每个步骤的解释，结果会有很大改善。

Figure 01正将厨房中洗干净的碟子放上架子。（图片来源：Figure官网视频截图）

辛格推测，这种方法可以让大语言模型的答案控制在实验室机器人能够完成的事情范围内。她所指的示例，就是机器人可以执行的简单步骤——动作和物体的组合，比如“去冰箱”或“拿鲑鱼”。得益于大语言模型对事物运行数据的了解，简单的动作将能以人类熟悉的方式组合起来，与机器人对环境的感知进行互动。辛格意识到，她可以让ChatGPT编写机器人能够遵循的代码。ChatGPT不再使用日常语言，而将使用编程语言Python。

辛格和托马森已针对一个实体机械臂和一个虚拟机器人测试了这种方法，称为ProgPrompt。在虚拟环境中，对于ProgPrompt提出的计划，机器人基本都可执行，而且这些计划的成功率要比以往任何训练系统高得多。与此同时，给实体机器人分配较简单的分类任务，它也基本总能完成。

在谷歌，卡罗尔·豪斯曼、布莱恩·伊克特等人也试图将大语言模型的输出转化为机器人行为，他们尝试了另一种策略。在他们创建的SayCan系统中，谷歌的PaLM大语言模型先收到机器人可以执行的简单行为列表。PaLM被告知，它生成的答案必须包含该列表中的项目。在人类用对话语言提出请求后，大语言模型会从列表中选择一些最有可能成功的行为。

在项目的一次演示中，一位研究人员键入：“我刚刚健完身，你能给我拿一杯饮料和一些零食来帮助我放松吗？”在大语言模型的评估中，“找到一瓶水”比“找到一个苹果”更有可能满足请求。机器人是一个单臂、带轮子的装置，看上去像一台起重机和一盏落地灯的混合体。它驶入实验室里的厨房，找到一瓶水，带给研究人员，然后返回。由于水已经送到，大语言模型此时将“找到一个苹果”的权重提高，于是机器人就拿起苹果。由于大语言模型了解人们对健身的说法，系统“明白”不能给用户拿含糖汽水或垃圾食品。

“你可以告诉机器人，‘给我拿一杯咖啡’，机器人就会给你拿一杯咖啡。”SayCan的一名设计师说，“但我们希望实现更高层次的理解。比如你可以说，‘我昨晚没睡好，你能帮我一下吗？’机器人应该知道要给你一杯咖啡。”

大语言模型驱动机器人是否安全

在大语言模型中寻求更高层次理解会产生一个疑问：这些语言程序只是机械地操纵词语，还是说它们对这些词语代表的事物建构起了某种联系？美国普林斯顿大学工程学教授、机器人学家阿尼鲁达·马朱姆达指出，当大语言模型提出烧饭的现实计划时，“似乎有一种推理在其中”。程序中没有任何部分“知道”鲑鱼是鱼，它也“不知道”很多鱼可食用以及鱼会游泳。但是，程序产生的这些词语中隐含了所有这些知识。

在最近一次实验中，马朱姆达和普林斯顿大学计算机科学系教授卡尔希克·纳拉西曼等人利用大语言模型暗含的“世界地图”来解决他们所谓的机器人学一大挑战：使机器人能够操纵它未曾接触或尚无程序指引的工具。

他们的系统展示出“元学习”的苗头，即把早期习得的知识应用于新的情境中。研究人员对GPT-3输入“详细、科学地描述锤子的用途”，并收集答案。他们重复这个提示，并将关键词换成另外26种工具，从涂刷器到斧头不等。然后，他们将大语言模型的答案输入一个虚拟机械臂，并对其训练。在面对撬棍这一陌生物体时，接受传统训练的机器人试图通过其弯曲的一端来拿起撬棍，而接受GPT-3训练的机器人则准确拿起了棍子的长柄。连上GPT“大脑”的机器人系统就像人一样，能够“概括总结”，因为它见过其他带柄的工具，所以会去拿撬棍的长柄。

机器人Figure 01正在将物品放入容器。（图片来源：Figure官网视频截图）

不过，机器无论是进行自主推理，还是按部就班行事，许多人都非常担忧它在现实世界中的能力。与传统编程相比，大语言模型本质上更不可靠、更不可知，这让许多专业人士感到忧心。托马森说：“有些机器人专家认为，要告诉机器人做某件事却不约束该事物的含义，这并不好。”

心理学家、科技企业家加里·马库斯虽称赞谷歌的PaLM-SayCan项目“令人难以置信”，但他实际上对大语言模型持怀疑态度，去年夏天他就对该项目提出了反对意见。马库斯认为，如果大语言模型误解了人类的需求，或未能充分理解需求的含义，那么它们在机器人内部可能会变得危险。当人类提出的需求本身有恶意时，大语言模型理解了人类的意愿，也可能造成伤害。

除了不能完全理解语义，大语言模型还有一个问题——偏见。大语言模型依赖人类产生的数据，但它并不是所有知识的存储库。互联网上存在感较低的语言、文化、民族，其实并没有纳入其中。例如，根据最新估计，非洲约有2000门语言，仅有约30门纳入了几个主要大语言模型的训练数据中。因此，去年11月在arXiv上发布的一篇研究预印本发现，GPT-4和另外两个热门大语言模型在使用非洲语言时的表现比使用英语时差得多。

此外，模型训练所依赖的数据——取自数字资源的数十亿单词——包含了大量有关人的偏见和刻板印象。美国卡内基梅隆大学的人工智能和机器人研究员安德鲁·亨特说，大语言模型如果在其训练数据中注意到了刻板印象，可能会在其回答中刻意模仿，且使用频率高于数据集中的数据。亨特认为，大语言模型的制造者可以拦截包含这些刻板印象的恶意提示，但这还不够，“在大语言模型可以应用于机器人之前，需要进行广泛研究，采取一系列安全措施”。

但目前还不必担心一件事，那就是大语言模型驱动的机器人会产生危险。机器就像人类一样，说永远比做容易。谷歌公司的豪斯曼说：“我们在很多小事情上就遇到了瓶颈，比如打开抽屉、移动物体，这些事情也是至少到目前为止，语言帮不上大忙的技能。”

目前，大语言模型带来的最大挑战不是它们的机器人身体，而是它们以神秘的方式模仿了人类的许多好事和坏事。泰莱克斯说，大语言模型是“一种互联网格式塔”——互联网的所有精华都在其中，而所有糟粕也都在其中。她说，与大语言模型生成的钓鱼邮件、垃圾邮件或其炮制的假新闻相比，将模型放入机器人也许是可以用它来做的最安全的事情之一。