机器人会嘲笑电子羊吗？研究用AI模型识别幽默

编辑:我爱机器人发布于:机器人资讯2023-07-286592

大型神经网络这种人工智能可以生成上千条“鸡为何要过马路”式的笑话。但它们理解这些笑话为何有趣吗?

利用《纽约客》杂志卡通标题竞赛的数百条参赛作品作为测试素材，研究人员给AI模型和人类出了三道题：把笑话与卡通配对；识别优胜标题；解释优胜标题为何有趣。

在所有题目中，人类表现明显优于机器，即使ChatGPT等AI取得了进步也是如此。那么，机器开始“理解”幽默了吗?简言之，它们确实取得了一些进展，但距离真正的理解还差得很远。

艾伦人工智能研究院的研究科学家Jack Hessel博士说：“挑战AI模型是否‘理解’的方法是设计测试题给它们选择题或其他带精确度分数的评估。如果某个模型最终在这个测试中超过人类表现，你会想，‘好吧，这是否意味着它真正理解了?’坚称没有任何机器可以真正‘理解’，因为理解是人的特质，这种立场也是可辩护的。但无论机器是否理解，它们在这些任务上的出色表现仍令人印象深刻。”

Hessel是论文《安卓会笑电羊吗?来自《纽约客》卡通标题竞赛的幽默“理解”基准测试》的第一作者，该论文在7月9日至14日于多伦多举行的第61届计算语言学年会上获得最佳论文奖。康奈尔大学计算机科学学院Charles Roy Davis教授Lillian Lee和华盛顿大学计算机科学与工程Paul G. Allen学院教授、艾伦人工智能研究院常识智能高级主管Yejin Choi也是该论文的合著者。其他贡献者包括犹他大学计算学院助理教授Ana Marasovic、艾伦人工智能研究院研究科学家Jena D. Hwang、华盛顿大学研究助理Jeff Da、OpenAI研究员Rowan Zellers，以及幽默漫画家、《纽约客》长期卡通编辑Robert Mankoff。

为开展研究，这些学者收集了14年的《纽约客》卡通标题竞赛素材，共超过700组。每组竞赛包括:无标题卡通图；该周参赛作品；《纽约客》编辑选择的三名决赛选手；对于某些竞赛，还包括每个参赛作品的群众质量评估。

对每组竞赛，研究人员用两类AI模型参与三项任务：基于计算机视觉的“从像素”模型和基于对卡通的人类概述进行分析的“从描述”模型。Hessel说：“有些照片数据集带有类似‘这是我的狗’的说明。《纽约客》案例有趣之处在于，图像与标题之间的关系是间接的、戏谑的，并引用了许多现实世界的实体和规范。因此，‘理解’这些东西之间的关系需要更高层次的细腻度。”

实验中，匹配要求AI模型从其他竞赛的决赛选手中为给定的卡通选择决赛标题;质量排名要求模型区分决赛标题和非决赛标题;解释要求模型生成自由文本，解释优质标题如何与卡通相关。

Hessel亲自撰写了大部分人生成的解释，因为众包此任务的效果不佳。他为超过650幅卡通各生成了60字的解释。Hessel说：“在机器学习背景下，650这个数量看起来很小，因为那里的数据点通常有成千上万。直到你开始一一写出来时，才感觉到。”

这项研究揭示了AI和人类对幽默“理解”之间存在显著差距。在卡通-标题匹配选择题中，最佳AI模型准确率只有62%，远远落后于人类同条件下的94%。而在人生成与AI生成的解释比较中，人类的解释约以2比1受青睐。

虽然AI目前还无法“理解”幽默，但它可以成为幽默创作者的辅助创意工具。