在现代的生活和生产流程中,处处都离不开机器人。从工厂里制造产品的机械臂,到家用扫地机器人,都是机器人赋能生活的场景体现。你有没有想过,当有一天,你无需学会编程,只需告诉机器人:“请加热我的午餐”,它就会自己找到微波炉。这是不是很神奇?

而最新的研究结果显示,凭借着写论文、写代码等强大功能冲击了整个科技界的ChatGPT,则有可能驱动机器人实现这一畅想,使人机交互直接迈入新时代。


ChatGPT+机器人走到哪一步了?

人类目前仍然严重依赖手写代码来控制机器人。以往每次想开发一个新产品,或者让现有的机器执行一个新功能,都需要一个高级工程师编写代码,同时尽可能编写测试覆盖所有场景。

而微软在最新发表的论文《机器人 ChatGPT:设计原则和模型能力(ChatGPT for Robotics:Design Principles and Model Abilities)》中提出的一套新的实验框架,就在探索如何改变这一现实,实现用ChatGPT驱动机器人,进行更自然的人机交互。

OpenAI的ChatGPT是一个生成式文本模型,通过对话形式提供了出色的交互能力,既能进行文本创作,也能撰写代码。微软的研究目的便是观察ChatGPT是否能够超越文本,思考物理世界以帮助机器人完成任务。


ChatGPT“训练”机器人

实验证明,ChatGPT可以用来帮助机器人学习和理解自然语言指令,使得人类员工能够更加轻松地与机器人交互,而不需要专业的编程或机器人控制知识。例如,当机器人被用于配送和物流领域时,ChatGPT可以帮助机器人更好地理解用户需求和指令,使得机器人能够更加智能地完成配送和物流任务。目前国内就已有迎宾机器人宣布接入ChatGPT,以此推动产品对话更加流畅。

而其中的关键难题是教ChatGPT如何使用物理定律、适应操作环境,以及了解机器人的物理行为如何改变世界状态,并以此来解决指定的任务。

伦敦大学学院(UCL)名誉教授和计算机科学家彼得·本特利博士(Dr。Peter John Bentley)在接受采访时表示,人类在未来用AI工具如ChatGPT来控制机器人是完全可行的路径。


AI大语言模型+机器人或成新趋势

谷歌当然也不甘其后,联合柏林工业大学的团队于本周一重磅推出了史上最大视觉语言模型——PaLM-E。作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。

可见,如同让ChatGPT“训练”和驱动机器人一样,AI大语言模型与机器人技术的结合或成为未来研究的重要趋势之一。


ChatGPT如何驱动机器人?

据介绍,现代机器人技术依赖于一种闭环体系。在这个体系中,需要先对任务进行编程,同时监测机器人的行为,再相应地调整程序,编写新的代码和规范来纠正机器人的行为。这个过程缓慢、昂贵且低效,因为不仅需要具有深厚机器人知识的高技能用户,而且需要用户参与多次交互才能使机器人正常工作。

而按照微软的设想,ChatGPT可以解锁一种新的机器人范式——将某项工作的人类语言描述转换成机器人可读的代码。这意味着在此过程中,即使是非专业技术用户也可以像专业工程师那样,用人类语言提供原始任务描述,观察机器人行为,并用人类语言提供关于机器人行为的反馈,然后ChatGPT会将其转化为代码以改善机器人行为。

首先,用户需要设定ChatGPT能够采用的一系列API(应用程序接口)或功能编码库。这个库可以根据特定机器人的类型进行设计,并为高级 API 用描述性名称命名,让 ChatGPT 可以更顺利地推理它们的行为。

接下来,根据可访问的API或功能编码,用户可以描述对工作的预期目标或需要进行约束的内容。如说明高级库中的哪些函数可用,或者 ChatGPT 应该如何组织它的答案,包括使用特定的编程语言等。

最后,用户在用模拟器评估ChatGPT撰写的代码后,可以用自然语言提供反馈意见。当用户对解决方案感到满意时,就可以将最终的代码部署到机器人上。


ChatGPT+机器人能做什么?

一个有趣的示例是,当用木块搭建微软logo时,面临着桥接文本域和物理域的挑战。而在这项研究中,ChatGPT已经能够实现不仅从其内部知识库中调用微软的logo,还能用SVG(可缩放矢量图形)的代码“绘制”这个logo,然后利用上面学到的技能来确认现有的机器人动作流程和可以搭建它的物理形式。

研究结果显示,通过让ChatGPT生成计算机代码,可以达成控制机器人的效果,并实现许多应用场景。如控制一台真正的无人机的全部功能,完成导航领域的复杂机器人部署,指引无人机清点超市货架、盘点存货、操作机械臂,以及基于API(应用程序接口)的物体识别和远程操作,如搜索等,还能帮助实现让人形机器人更像“人”的愿景。

通过给ChatGPT 编写算法,可以让无人机在不撞上障碍物的情况下,在空中达到目标。只需要告诉模型,它操控的这架无人机有一个前向距离传感器,ChatGPT 立即能够为算法编码了大部分关键构件。且在这个人机交流过程中,ChatGPT 仅通过自然语言反馈就能进行局部代码修改。

当用户的指令含糊不清时,ChatGPT 会提出澄清问题,并为无人机编写复杂的代码结构,例如锯齿形图案,以便可视化地检查货架。

ChatGPT+机器人还能应用于模拟的工业检测场景,例如可以在Microsoft AirSim模拟器中使用ChatGPT进行模拟监测,实验结果显示该模型能够有效地解析用户的高级意图和几何线索,以准确地控制无人机。

ChatGPT有能力适应各种物理表现形式,通过对话进行闭环推理,并解决机器人技术中的各类“零点翻译问题”(Zero-shot,指不借助中间语的直接翻译。如谷歌曾经的翻译系统都依赖英语做中间语,先将源语言翻译为英语,再将英语翻译为目标语)。由于机器人的很多相关技术的成熟度相对更高,有多个开源或闭源的编程库存在,可帮助设计机器人在认知和行动领域的基本行动,如物体检测和分割、映射、运动规划、控制和抓取等。


ChatGPT+机器人仍面临诸多挑战

技术仍面临挑战

事实证明,ChatGPT 本身可以做很多事情,但它仍然需要一些帮助。就像是以往取得过一些惊人成果的“深蓝”或“阿尔法狗”,它们都是专家特化型AI,都只会下国际象棋或围棋。如果要学会一项新技能,就必须更换新的数据库,类似手机刷机或电脑重装系统。而当前的ChatGPT要想融入机器人技术,也面临着差不多的情况。

例如现阶段来看,ChatGPT虽然能够生成计算机代码,但控制机器人的问题在于,计算机代码可能需要为特定的硬件量身定制才能正常工作。ChatGPT目前使用的是它已经学习到的代码示例,但它可能暂时无法做到及时更新,兼容不了最新的硬件。

所以,科学家Peter John Bentley博士表示,目前ChatGPT不太可能与人类开发人员相提并论。它只是提供了一个简单的捷径,可以帮助人们学习基础知识,但它缺乏作为开发人员的基本能力。


ChatGPT输出内容仍需评估

就目前而言,ChatGPT还存在很多漏洞,在功能性、保障性,以及安全性上缺乏基本的能力。因此,该研究团队也表示,ChatGPT 的输出不应该在没有仔细分析的情况下直接部署在机器人上。在未来现实部署之前,有必要通过在模拟环境中获得实验结果,从而对算法进行评估,并采取必要的安全预防措施。


结语

用ChatGPT驱动机器人是前所未有的大胆设想,目的是让机器人技术从科学实验室走入千家万户,实际地赋能人们的日常生活。基于这一美好愿景,未来,ChatGPT+机器人的相关研究与应用仍需要进行长期的努力。


文章参考:

1.《实现自然的人机交互 微软将ChatGPT应用于机器人》每日经济新闻

2.《微软最新实验,用ChatGPT驱动机器人》元宇宙与碳中和研究院

3.《「终结者」走入现实?微软的野心:用ChatGPT控制机器人!》新智元

4.《终结者最强大脑,谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人》新智元

5.《ChatGPT+机器人带来哪些新可能?又需要具备哪些条件?我们问了问ChatGPT》 机器人大讲堂