在从工厂到手术室的多种工作场所里,不同大小和形状的机器人变得越来越多。许多机器人都是通过机器学习的方法,在反复试验和不断犯错中习得新技能的。最近,有一种新方法可以帮助这些技能在不同形状的机器人之间进行迁移,以免每次都要从头开始学习任务。在去年夏天举办的国际机器学习大会(ICML)上,美国卡内基梅隆大学的计算机科学家刘星昱展示了这种新方法,他是这项研究的第一作者。“从实际应用的角度来说,这项研究非常重要,”他说,“对于基础研究而言,我认为这也是一个值得研究的前沿问题。”

假设你有一个末端类似于人手的机械臂。你已经训练它的5个指头学会拿起一把锤子,以及将钉子钉入木板。但现在,你希望一种“二指夹爪”也能完成同样的任务。为此,科学家创造出了一连串的虚拟机器人来模拟两种机械臂之间的形态:它会从最初类似于人手的结构缓慢地转变成一种新的形状。每一个中间机器人都会通过练习指定的任务,以此调整对应的人工神经网络(一种计算模型),直到达到阈值成功率。紧接着,这个系统的控制器代码就会被传递给这条“链”上的下一个中间机器人。

为了完成从虚拟机器人到目标机器人的转变,研究团队创建出了一种共享式树状运动链(kinematic tree)。其中,一组代表肢体部分的节点被一些代表关节的链接器(link)连接了起来。为了将锤击技能迁移到二指夹爪,这支团队将原本结构中代表三个指头的节点的大小和权重都调整为零。对于每一个中间机器人来说,相应指头的大小和权重就会逐渐变小。

与此同时,控制它们的神经网络也必须学会做出调整。此外,研究人员还调整了训练方法,以便使中间机器人之间的变化不会太大也不会太小。

这个由卡内基梅隆大学设计的系统叫做REvolveR(for Robot-Evolve-Robot)。它的表现优于机器学习的基本方法,比如从头开始训练目标机器人的方法。在锤击任务和其他训练任务(包括移动一个球和打开一扇门)中,为了使机器人夹爪达到90%的成功率,此前最好的替代性训练方法需要比REvolveR多执行29%~108%的试验次数,尽管这些替代性方法在训练过程中提供了更多的信息反馈。接下来,研究人员还使用其他类型的虚拟机器人测试他们的训练方法。例如,利用这种方法为一个蜘蛛状机器人添加新的腿部结构,并让它重新学会爬行。

维塔利·库林(Vitaly Kurin,未参与这项研究)是英国牛津大学的计算机科学家,主要研究机器人和机器学习,他表示:“我认为这是一种非常巧妙的方法。”尽管通过将艰巨的挑战分解成一系列小的部分,从而使AI能够在不同的任务之间实现技能迁移的方法并不新鲜,“但在一个机器人与另一个机器人之间进行内插,以此实现技能迁移,这是我以前从未想到的。”