用代码驱动的机器人,如何更好地进行人机交互?最近,布朗大学的人机机器人实验室使用AI加持的新系统进行测试,该系统让机器人理解人类用日常语言发出的指令,并准确执行任务。

这项研究的关键点在于,他们开发了一种新的系统,能够使机器人执行复杂的任务,而不需要数千小时的数据训练。传统的机器训练中,要让机器人在不同地方进行导航,需要大量示例来告诉机器人如何理解和执行指令,而这个新系统可以使机器人可以在不同环境中运行,只需要提供该区域的详细地图。

研究人员介绍了他们系统中嵌入的大语言模型的作用,通过将指令进行分解,无需大量训练数据,就可以使机器人理解并执行任务。该系统不仅能够接受自然语言指令,还能够根据环境的上下文来计算机器人的逻辑,这使得指令更加简单明了,包括机器人可以做什么、不能做什么以及按什么顺序执行。

该项目的主要研究员之一,布朗大学计算机科学教授Stefanie Tellex介绍道:“在选择实验对象时,我们特别考虑了在环境中移动的移动机器人,我们想用一种方法,让机器人可以听懂人类对他下达的复杂且口语化的指令串联起来,比如沿着普罗维登斯的塞耶街去咖啡店见我,但避开CVS并首先在银行停下来,并具体地按照指令步骤准确实施。”

如果该研究取得成果,未来将会应用于在城市中的众多移动机器人上,包括无人机、自动驾驶汽车、无人运输车辆等,你只需要用平时与人交流的说话方式和机器人交互,他便可以准确理解你的指令,使移动机器人在复杂环境下的应用成为可能。

为了测试这个系统,研究人员在21个城市使用OpenStreetMap进行了模拟,结果显示系统在80%的时间内都能准确执行任务,这一准确率远高于其他类似系统,它们通常只能达到20%左右的准确率,无法处理复杂的指令和任务。

同时,团队还在布朗大学校园内使用波士顿动力的Spot机器人进行了室内测试,spot机器人被认为是全球领先的通用四足机器人之一,在spot身上取得验证的成功有利于促进该系统对其他厂商机器人的适用性。

Jason Xinyu是一名计算机科学博士,也是本次研究团队的主要成员,他用一个例子解释了这个系统的工作原理。

假如用户告诉无人机去“商店”在“主街”,但要先去“银行”。输入该指令后,首先,软件将这两个地点识别出来,然后语言模型开始将这些抽象地点与机器人所在的具体地点进行匹配;与此同时,它还分析地点的元数据,比如地址或地点的类型,以帮助系统做出决策,在这种情况下,有几家商店附近,但只有一家在主街上,所以系统知道要去哪里;随后,语言模型将命令翻译成线性时序逻辑,这是一种数学代码和符号来表达命令;最后,系统将当前映射的位置代入这个公式中,告诉机器人前往A点,但要在B点之后。

Jason介绍,11月将在网上发布基于OpenStreetMaps的模拟,允许用户自己测试这个系统。用户可以在网页上输入自然语言命令,指导模拟中的无人机执行导航任务,以帮助研究人员微调软件。

这意味着,一个由大众共同训练的“AI+机器人”项目,正在向我们走来。