2023年7月5日,未来光锥AI For Science社群分享第一期邀请到中国科学院自动化研究所研究员、博士生导师王鹏,介绍“AI+机器人:类人灵巧操作机器人”。以下为未来光锥对王鹏博士分享内容,以及部分观众提问进行的简要整理。

分享嘉宾:王鹏

中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员

今天想跟大家分享的主题是AI+机器人。当然,这是一个大方向,因为人工智能和机器人的结合点是非常多的,包括AI和机器人的视觉感知、移动能力、导航定位等的结合。我主要介绍的是机器人中很重要的能力——灵巧操作能力。

机器人在感知能力和移动能力方面的发展,实际上已经取得了较大的成就,也已在很多场景中进行应用。但是,操作能力,尤其是具有一定适应性、灵巧性的操作能力,目前仍是机器人的短板。因此,近几年,我们工作的重点是,希望能用过将人工智能和机器人以及相应的灵巧机构等进行结合,以提高机器人的灵巧操作能力,特别是在通用性和适应性等方面,我也将之称作类人的灵巧操作能力。


应用行业

应用内容

特种:装备制造;空间在轨维护

工业:3C家电装配;精密部件加工

服务:手术医疗;家庭服务

机器人的操作能力,其实也就是机器人“干活”的能力,让机器人像人一样,通过执行机构完成工作。虽然近几年已有相关应用,但主要还是在场景简单、对象相对较少、任务较为简单的情况中。那些对适应性要求较高的任务场景,主要还是依赖人来完成工作。

举几个例子介绍机器人在操作工作中的现状。比如,在特种领域的一些应用中,主要还是以遥操作为主,即把人的动作通过主端映射到机器人端以完成相应的任务,如此一来,可以完成一些复杂的动作。在工业里中,主要是以示教操作为主,比如在生产线上替代一些重复性的动作,视力觉等传感器的引入,也增加了工业应用的适应能力。在服务业中,包括家庭服务,目前还未有形成相应的适应性的能力。这也是目前机器人领域重点突破的方向。

机器人灵巧操作的主要难点包括:第一,对象的多样性,操作的对象是多种多样的,有些甚至是前所未见的。第二,环境的不确定性,有些情况下,机器人应用的环境可以被描述、定义、建模的,但还有很多环境是不能如此的。第三,是任务的复杂性,尤其是人类在做的工作,很多时候并不是单一的,而是涉及很多子任务,涉及到的动作的复杂性极高。这三点成为阻碍机器人灵巧出现的主要挑战。


类人灵巧性

什么是类人灵巧性?一方面指的是所执行任务(task)的灵巧性和通用性;另一方面,执行机构(manipulator)也需要有较高的自由度和灵巧性;再者,也需要有很高的学习能力(learning capability),可以通过学习实现更好的适应性、通用性,和增长能力。可以说,类人灵巧操作能力是机器人亟待突破的瓶颈和短板之一。

图1 类人灵巧的定义|来源见底部标注

从整个领域来说,类人灵巧操作机器人涉及到的技术要素主要有如下几点(可以参考人类做理解):首先是有好的灵巧机构,进而获得理想的驱动方式;还有多模感知,比如视觉和触觉的感知能力;还有智能学习能力,比如监督学习、强化学习、持续/增量/终身学习,以及最近年发展起来的AI大模型;最后,还有人机交互的手段,人机交互是获得技能的重要方式,需要人机共融、协同工作。

我们从十年前开始进行灵巧操作相关研究,一直做到今天。我们希望可以借助高度自由的灵巧机构加上AI学习和多模态感知,去尝试实现机器人的接近人类的灵巧操作能力。但这项工作中涉及的要素很多,比如结构与驱动、传感与感知、学习与进化等。现在结合我们自己的研究工作举几个例子。首先,在结构与驱动方面,近几年,我们研发了系列化类人灵巧手Casia Hand,希望它可以从结构驱动上具备更好的能力。其次,是操作技能的学习和获取,结合灵巧手提出了一系列灵巧操作AI学习模型。最后,进一步和具体的应该和任务结合,构建类人灵巧操作机器人系统并进行验证(图2)。

图2 类人灵巧操作机器人Casia Hand | 来源于王鹏研究员团队

实际上,对于类人灵巧操作机器人,现在尚无通用的定义,我尝试给出的定义是:具有接近甚至超过人类的灵巧操作能力,能够共享人类的工具等基础设施,能够与人类自然交互、共融与协同工作的通用型机器人。

AI+机器人:类人灵巧操作技能学习与获取

在有了灵巧手和相应的机器人系统之后,还有一个很重要的问题需要解决:如何让机器人去获取、学习相应的灵巧操作能力?只有硬件或只有系统是不行的,还需要让机器人真正在应用场景中具有更好的自主性或者更好的智能性,去适应相应的环境和任务,这就涉及到技能的获取和学习。

依靠人类操作经验的遥操作

依赖机器人操作能力的自主学习

快速决策;灵活可靠;适应性强

可重复性高;工作持续性强;快速数据推理与记忆

依赖人类操作员经验

不确定性高


人机融合 = 人类操作经验+机器人操作能力

目前有不同的方法来完成操作技能的获取和学习,其中涉及到两条主要技术途径:一个是依靠人类操作经验的遥操作(人机融合);还有一个是机器人通过学习获得自主操作能力,前者可靠性更高,适用于特种应用,后者自主性更强,适用于服务等应用。

人机融合或遥操作方式的一个明显优势是其可靠性、稳定性较好,但是它的自主性相对就要差一些。所以,在一些对安全性、可靠性要求较高的场景中,比如危险品处理,最主要的完成方式还是通过人机融合来完成。当然,近几年一个很重要的方向是人机融合智能增强,也就是说,将人的动作影射和机器人的一定的自主能力融合起来,各取各取所长去实现更好的智能性和可靠性。

人工智能的快速发展,为机器人操作技能的获取和学习提供了丰富的手段和方式。AI中很多的学习方式,包括监督、模仿、强化、持续,还有生成式的模型等,为类人灵巧技能的获取提供了一个很重要的手段。

近几年,这方面的工作得到的关注越来越多。从早期关注点落在简单执行机构,及通过规则化的方法完成操作任务,到近几年强调更为复杂的机构(如多指灵巧手)和AI的结合,通过这两者的结合,实现机器人的更强的操作能力。比如(图3),通过操作中的视觉可供性,首先基于视觉(如点云)生成相应的可供性操作配置,然后结合相应的控制方法,驱动灵巧手去更好地完成抓取操作等任务。

图3 基于视觉可供性的多指抓取合成|来源见底部标注

在这个基础上,也可以构建一些更加接近于人类的,特别是手部和物体的接触模型,实现更加精细的操作任务(图4)。人与机器人之间也可以实现类人的物体交接操作Human-to-Robot Dexterous Handovers (图5)。

图4 基于手-物接触表示的灵巧手抓取操作学习|来源见底部标注

图5 人与灵巧手间的类人物体交接操作|来源见底部标注

除了前面讲到的,通过虚拟环境的物理引擎生成数据,然后再去训练相应的学习模型,让机器人获取能力的方式之外,也可以直接通过人类示教的数据,然后通过模仿学习等方法让机器人去获取相应的能力。这种学习方式和前面讲到的遥操作是有区别的。遥操作是一个简单的动作的影射过程,而学习则是通过数据驱动或自主探索去学习技能或知识,在适应性和智能性上都会有更好的表现。


AI+机器人:与大模型的结合

近几年,特别是从去年开始,随着大模型的发展,如何将机器人,和大模型结合,也成为了整个领域的研究热点之一。这并不是机器人在“蹭”大模型的热点,而是机器人自身的能力和发展,确实需要与大模型结合,以实现更好的任务规划和分解,包括多任务的实现能力。近一年间,出现了很多和机器人结合的大模型(图6)。

图6 AI大模型+机器人举例|来源见底部标注

目前,和机器人结合的大模型,主要集中交互能力、导航能力,以及我更加关注的操作能力。操作涉及的复杂性更高,包括操作对象、任务、环境等。而这些复杂性也决定了,需要通过大模型去实现机器人任务的分解以及顶层规划。当然,在具体应用上,还是需要先从机器人对环境、任务对象的适应能力层面入手,逐级解决,随后通过引入复杂的末端执行机构(比如灵巧手等),进一步实现更加精细和通用的操作能力。在这个基础上,我们希望让机器人像人类一样,能够使用工具。工具使用能力是很复杂的,涉及到诸多要素,包括对工具本身的认识和理解,对使用工具完成任务的规划能力,适应工具精细操控的能力等。

为此,我们建构了一系列的学习模型,包括监督学习方式,以及基于少量人类示教的数据或者模仿数据,再生成大量数据,进一步训练机器人,让它能够获得使用工具的能力并实现通用性。大模型和灵巧手合适去实现更好的类人灵巧操作能力方面的研究也正在进行中。

整体上说,人工智能和机器人的能力的结合的过程,可以理解为从早期的示教学习、监督学习,向一定程度的探索学习(比如强化学习等),再到一定持续、增量、终身学习,再到目前AI大模型的引入的过程。当然,AI大模型并不能解决所有问题,也需要通过AI大模型和其他学习方法进行融合,共同完成相应能力的获取。把AI引入机器人,比如引入机器人的灵巧操作能力之中,其最终的目的是希望机器人能力实现从专用到通用跨越。

图11 AI赋能:由专用到通用的类人灵巧操作机器人|嘉宾制作

目前对机器人的应用,更多地还是针对一些专用的领域,比如说针对某一个任务,针对某一个工位,去设计一套机器人系统,让它去完成相应的任务。但这个机器人,一旦离开了这个工位,离开了这个任务,离开了这个场景,就可能无法完成工作。但是社会发展对机器人应用的需求是更好的通用能力。因此,我们对机器人能力的期待,不仅是自主性、灵巧性,还有更好的通用型,对作业对象、任务、环境有更强的适应能力。

今年6月,Google推出了多任务机器人RoboCat(论文:https://arxiv.org/abs/2306.11706),希望机器人能够通过自我改进、优化,对环境、任务和机器人本体实现更好的适应能力,实现通用性。虽然,现阶段,还只是一项尝试性工作,其末端执行机构仍是以简单的二指平行抓为主,但这是一个很好的开端和探索。


观众提问

观众1

王老师您好,想向您请教两个问题,第一个是说,从我们现在这个训练机器人的角度来看啊,刚才您也提到了很多数据训练的方式。究竟这些方法,比如说遥操作呀,或者基于图片视频的去学习啊,或者我们利用这种仿真的形式去学习啊……究竟哪个方式它可能会更好一点?还是说在不同的场景、不同任务中,应该有针对性的选择?还是说其实是互补的,应该所有的方式都用上,才能让这个机器人变得更强大?

王鹏

这个问题是AI+机器人领域的一个非常核心,非常关键的一个问题。AI的应用中,数据实际上是很关键的因素。而数据的获取,实际上也是AI+机器人中很重要的环节。不同于视觉、自然语言处理,或者互联网上的数据获取,机器人领域的数据获取成本比较高,难度也相对较大。因此,目前机器人和AI的结合、和各种学习方法的结合,特别需要先有数据去进行训练。换句话说,数据是作为启动的基本要素而存在的。这种学习方式中,大多数的数据的获取,都是先通过仿真来完成的。其好处在于,目前有大量的物理引擎,这些物理引擎都有很好的摩擦、重力的表示,而且它的精度相对来说也比较高。因此,在这种情况下,我们主要通过在虚拟环境中获取大量数据。基于这些数据,为后续学习手段,提供良好的数据基础。这是一种方式,主要通过仿真来完成。其问题主要体现在虚拟-实际环境之间的较大的差异性。

另外一种方式是通过实际的场景获取数据。比如说Google,前几年他们做的一项工作,让一排几十个,甚至更多的机器人,自己去采集数据。这种虽然可行,但实际应用中,时间和经济成本都相当高。

第三种方式,是通过将虚拟环境下获取的数据作为启动。也就是说,先训练一个或者构建一个静态的网络或者基础的网络,由此,机器人便具备了一定的基础能力,然后让机器人在实际场景下运行。在“用”的过程中,机器人可以实时地去获取新的数据,然后再把这些数据调整、优化模型。换句话说,就是让机器人在使用的过程中变得越来越聪明,越来越智能。

观众2

王鹏老师好,我觉得您的分享非常有意思。我也在想一个问题,就是您刚才讲的,比如说灵巧操作机器人,它基本上是面向人所使用的工具的一种机器人。我们现在用的工具绝大部分是按照人的双手来创造的。所以像这种灵巧操作的机器人是要去操作这些人本身用双手操作的工具。但是呢,从另外一个角度来看,我们可否先去创造适合于机器人的工具?如此一来,又会不会淡化现在这种灵巧操作机器人的工作?我不知道您怎么看这个问题,或者是您有什么预测?

王鹏

您提这个问题很关键,这不光是一个技术问题,一定程度上也是一个哲学问题。一方面,从技术的发展的角度,我们先根据目前的实际情况,把用专业知识能解决的问题先解决了。另一方面,正如我们今天讨论到的,为什么末端执行机构要从二指到三指,再到四指、五指,我觉得这是技术发展的方向之一,其最终目的实际上是获得更好的灵巧性和通用性。而且,相对于我们目前所处的生活环境,机器人大部分还是要用在人类生产、生活中,机器人要能适应人类的生产生活设施和工具,能够更快地使机器人融入生活、生产制造中。

第三个关于“可否先去创造适合于机器人的工具”的问题是很关键的,涉及到机器人与人和设施的交互、信息传递方式等问题。目前,很多和设施的交互和操作任务还是接触性的,举个例子,比如用到楼域里面的移动机器人,它在上下楼的时候,十年前,我们可能考虑更多的是,怎么在机器上设计一个简单的执行机构,比如机械臂,让它在进如电梯的时候能自主按楼梯按钮;但近几年,大家会发现模式变了,不再需要通过接触操作的方式去解决这个问题,而是通过通讯的方式就解决了,如现在酒店中使用的送货机器人等,不需要通对按钮的接触操作,也可以自如上下楼。此外,脑机接口等也是未来实现人和机器人交互的重要方式。