大型神经网络这种人工智能可以生成上千条“鸡为何要过马路”式的笑话。但它们理解这些笑话为何有趣吗?

利用《纽约客》杂志卡通标题竞赛的数百条参赛作品作为测试素材,研究人员给AI模型和人类出了三道题:把笑话与卡通配对;识别优胜标题;解释优胜标题为何有趣。

在所有题目中,人类表现明显优于机器,即使ChatGPT等AI取得了进步也是如此。那么,机器开始“理解”幽默了吗?简言之,它们确实取得了一些进展,但距离真正的理解还差得很远。

艾伦人工智能研究院的研究科学家Jack Hessel博士说:“挑战AI模型是否‘理解’的方法是设计测试题给它们选择题或其他带精确度分数的评估。如果某个模型最终在这个测试中超过人类表现,你会想,‘好吧,这是否意味着它真正理解了?’坚称没有任何机器可以真正‘理解’,因为理解是人的特质,这种立场也是可辩护的。但无论机器是否理解,它们在这些任务上的出色表现仍令人印象深刻。”

Hessel是论文《安卓会笑电羊吗?来自《纽约客》卡通标题竞赛的幽默“理解”基准测试》的第一作者,该论文在7月9日至14日于多伦多举行的第61届计算语言学年会上获得最佳论文奖。康奈尔大学计算机科学学院Charles Roy Davis教授Lillian Lee和华盛顿大学计算机科学与工程Paul G. Allen学院教授、艾伦人工智能研究院常识智能高级主管Yejin Choi也是该论文的合著者。其他贡献者包括犹他大学计算学院助理教授Ana Marasovic、艾伦人工智能研究院研究科学家Jena D. Hwang、华盛顿大学研究助理Jeff Da、OpenAI研究员Rowan Zellers,以及幽默漫画家、《纽约客》长期卡通编辑Robert Mankoff。

为开展研究,这些学者收集了14年的《纽约客》卡通标题竞赛素材,共超过700组。每组竞赛包括:无标题卡通图;该周参赛作品;《纽约客》编辑选择的三名决赛选手;对于某些竞赛,还包括每个参赛作品的群众质量评估。

对每组竞赛,研究人员用两类AI模型参与三项任务:基于计算机视觉的“从像素”模型和基于对卡通的人类概述进行分析的“从描述”模型。Hessel说:“有些照片数据集带有类似‘这是我的狗’的说明。《纽约客》案例有趣之处在于,图像与标题之间的关系是间接的、戏谑的,并引用了许多现实世界的实体和规范。因此,‘理解’这些东西之间的关系需要更高层次的细腻度。”

实验中,匹配要求AI模型从其他竞赛的决赛选手中为给定的卡通选择决赛标题;质量排名要求模型区分决赛标题和非决赛标题;解释要求模型生成自由文本,解释优质标题如何与卡通相关。

Hessel亲自撰写了大部分人生成的解释,因为众包此任务的效果不佳。他为超过650幅卡通各生成了60字的解释。Hessel说:“在机器学习背景下,650这个数量看起来很小,因为那里的数据点通常有成千上万。直到你开始一一写出来时,才感觉到。”

这项研究揭示了AI和人类对幽默“理解”之间存在显著差距。在卡通-标题匹配选择题中,最佳AI模型准确率只有62%,远远落后于人类同条件下的94%。而在人生成与AI生成的解释比较中,人类的解释约以2比1受青睐。

虽然AI目前还无法“理解”幽默,但它可以成为幽默创作者的辅助创意工具。