编者按:“这只鸟儿不会飞。”对于人类来讲,这句话是很好理解的,但对于当前的大型语言模型来讲,它们很可能会把这句话简单理解为“这只鸟儿会飞。”这是因为,模型在理解“否定”的概念上存在很大的障碍。如今的语言模型比以往任何时候都更加复杂,但它们仍然在与“否定”的概念作斗争。而且,这种情况短期内不太可能改变。本文来自编译,希望对您有所启发。

诺拉·卡斯纳(Nora Kassner)觉得她的电脑并不像人们想象的那么聪明。2018 年 10 月,谷歌发布了一种名为 BERT 的语言模型算法,同一领域的研究人员卡斯纳迅速将其加载到了自己的笔记本电脑上。这是谷歌的第一个基于大量在线数据的语言模型。像大多数同行一样,卡斯纳对 BERT 补全句子和回答简单问题的能力印象深刻。大型语言模型(LLM)似乎可以像人类一样阅读文本(甚至做得更好)。

但当时在慕尼黑路德维希·马克西米利安大学(Ludwig Maximilian University of Munich)读研究生的卡斯纳还是对此持怀疑态度。她认为,大型语言模型应该明白它们的答案意味着什么,以及不意味着什么。“知道鸟会飞是一回事”,她说,“一个模型还应该自动知道‘鸟不会飞’这种否定的说法是错误的。”但当她和顾问辛里希·施兹(Hinrich Schütze)在 2019 年对 BERT 和其他两个大型语言模型进行测试时,发现这些模型的表现就好像“不”这样的否定词汇是不存在的一样。

自那以后,大型语言模型的规模和能力都在飙升。“算法本身仍然与我们以前的算法相似,但其规模和性能确实是令人惊讶的,”卡内基梅隆大学(Carnegie Mellon University)安全人工智能实验室负责人赵鼎(音译,Ding Zhao)说。

但是,虽然聊天机器人的表现有所提高,但它们在理解“否定”方面仍然存在问题。他们知道说一只鸟不能飞意味着什么,但当面对更复杂的、人类可以轻松理解的逻辑时,他们则会崩溃。

香港科技大学(Hong Kong University of Science and Technology)的人工智能研究员帕斯卡尔·冯(Pascale Fung)表示:“大型语言模型比我们以前拥有的任何系统都运行得更好。那么,为什么它们在看似简单的事情上做不好,却在其他我们意想不到的事情上能表现出惊人的力量呢?”最近的研究终于开始解释这些问题了。但研究人员仍然不明白机器是否会真正理解“不”这个词。

诺拉·卡斯纳(Nora Kassner)对主流的聊天机器人进行了测试,发现它们通常无法理解否定的概念。Courtesy of Nora Kassner


1. 创造连接

要让电脑像人一样阅读和写作是很难的。机器擅长存储大量数据和进行复杂的计算,因此开发人员将大型语言模型构建为神经网络:一种评估对象(在语言模型中指的是单词)如何相互关联的统计模型。每一种语言关系都有一定的权重,而这种权重在训练过程中会经过微调。例如,“老鼠”与“啮齿动物”的关系比与“披萨”的关系更大,即使我们知道有些老鼠也喜欢吃披萨。

就像智能手机键盘知道你在“good”后面喜欢跟着“morning”一样,大型语言模型也会按顺序预测文本段中的下一个单词。用于训练语言模型的数据集越大,模型的预测能力就越好,而且随着用于训练模型的数据量大大增加,数十种不同的大型语言模型如雨后春笋般涌出。例如,聊天机器人已经学会了使用自己的风格、语法和语气来“说话”。“早期的一个问题是,语言模型完全无法察觉语言中的情绪,”卡内基梅隆大学(Carnegie Mellon)的计算机科学家凯瑟琳·卡利(Kathleen Carley)说。卡利研究的是使用大型语言模型进行“情绪分析”,从大型数据集中提取情绪语言,用于挖掘社交媒体意见等。

因此,新模型应该能更可靠地得到正确的答案。“但我们并没有应用推理,”卡利说,“我们只是应用了一种数学上的变化。”而且,不出所料,专家们正在寻找这些模型与人类阅读方式之间存在差异的地方。


2. 没有“否定”

与人类不同,大型语言模型是通过将语言转化为数学来处理语言的。这些模型通过预测可能的文本组合,来改进其在生成文本方面的能力。但是,这是有代价的。

“问题在于,预测的任务并不等同于理解的任务,”芝加哥大学(University of Chicago)的计算语言学家艾莉森·艾丁格(allison Ettinger)说。和卡斯纳一样,艾丁格也在测试语言模型如何处理那些对人类来说似乎很容易的任务。例如,在 2019 年,艾丁格用测试人类语言能力的方法测试了 BERT:

他接住了传球,又一次得分。没有什么比踢____更让他开心的了。(BERT 正确地预测了“足球”。)

车道上的雪积得很高,他们无法把车开出来。当艾伯特醒来时,父亲递给了他一个____。(BERT 错误地预测了“纸条”、“信”、“枪”。)

当涉及到否定的时候,BERT 做得始终不太好。

一只知更鸟不是____。(BERT 预测的是“知更鸟”和“鸟”。)

一方面,对于模型来说,这是一个合理的错误。艾丁格说:“在很多情况下,‘知更鸟’和‘鸟’会相互预测,因为它们可能会非常频繁地同时出现。”而另一方面,任何人都能看出这是错的。

“预测的任务并不等同于理解的任务,”芝加哥大学(University of Chicago)的计算语言学家艾莉森·艾丁格说。

到 2023 年,OpenAI 的 ChatGPT 和谷歌的机器人 Bard 已经有了长足进步,可以预测艾伯特的父亲递给他的是一把铲子,而不是一把枪了。同样,这可能是数据量增加和改进的结果,使得更好的数学预测成为了可能。

但“否定”的概念仍然会让聊天机器人犯错误。当输入提示“什么动物没有爪子也不下蛋,但有翅膀?”时,Bard 回答说:“没有这样的动物。”而 ChatGPT 正确地回答了蝙蝠,但也回答了飞鼠和飞狐猴,而这两种动物是没有翅膀的。总的来说,“随着模型变大,难以理解否定概念这一点并没有发生改变,”艾丁格说,“一般的世界知识并没有什么帮助。”


3. “看不见”的词汇

一个显而易见的问题是,在英文中,为什么像“do not”和“is not”这样的词汇不直接提示机器忽略“do”和“is”呢?

这种情况并非偶然。像“not”(不)、“never”(从不)、和“none”这样的否定词被称为停止词,它们是功能性的词汇,而不是描述性的词汇。像“bird”(鸟)和“rat”(老鼠)等词汇是具有明确含义的,相比之下,停止词本身不会自己增加含义和内容。其他例子还包括“a”、“the”和“with”。译者注:Stop Words(停止词)是指在自然语言中出现频率非常高,但是对文章的意义没有实质影响的那类词。

辛辛那提大学(University of Cincinnati)研究感知分析的博士生伊祖那·奥克帕拉(Izunna Okpala)说:“有些模型会过滤掉停止词,以提高效率。”比如,省略每个“a”,可以让模型更容易地分析文本的描述性内容。省略每个“the”,并不会让句子失去原本的意思。但这个过程也排除了否定词,这意味着大多数大型语言模型都会忽略否定词。

那么,大型语言模型为什么不能学习一下停止词的意思呢?归根结底,是人类与模型理解“意思”的方式不同。是这样的,否定词对我们很重要,因为人类有能力理解这些词的含义。但模型是从数学权重中学习“意义”的:“玫瑰”经常与“花”/“红色”/“香味“一起出现,而用这种方法是不可能知道什么是“不”的。

卡斯纳说,训练数据也有一定的漏洞,更多的训练数据不一定能解决问题。模型主要被训练的是肯定句,因为这是人们最有效沟通的方式。卡斯纳说:“如果我说自己出生在某一天,那就自动排除了其他所有日期。我不会说‘我不是在 XX 天出生的’。”

这种否定陈述的缺乏破坏了模型的训练。“模型很难生成事实正确的否定句,因为它就没有见过那么多的否定句,”卡斯纳说。


4. 解开“否定”的谜团

如果更多的训练数据不能解决问题,那还有什么解决方案吗?今年 3 月发表在 arxiv.org 网站上的一篇分析文章提供了线索。牛津大学的计算机科学家张明俊(音译,Myeongjun Jang)和托马斯·卢卡谢维奇(Thomas Lukasiewicz)对 ChatGPT 的否定技能进行了测试。他们发现,尽管大型语言模型的学习方式没有改变,但 ChatGPT 在否定技能方面比早期的大型语言模型略胜一筹。“这是一个相当令人惊讶的结果,”张说。他认为 ChatGPT 的“秘密武器”是人类提供的反馈。

ChatGPT 算法已经通过人类的反馈而进行了微调,在这个过程中,人们会验证 ChatGPT 的回答并提出改进建议。因此,当用户注意到 ChatGPT 在简单的否定句中表现不佳时,就会报告错误,从而使算法最终得到正确的结果。

ChatGPT 的开发人员约翰·舒尔曼(John Schulman)在最近的一次演讲中提到,人类反馈是另一项改进的关键:让 ChatGPT 在得到否定提示而对答案模棱两可时,给出“我不知道”的回答。卡斯纳说:“能够避免回答问题非常重要。”有时候“我不知道”就是答案。

帕斯卡尔·冯(Pascale Fung)说,很难直接对许多大型语言模型进行分析,因此尽管它们显示出了有关否定的一些小迹象,但研究人员尚不能完全理解这些改进。

然而,即使这种方法也存在漏洞。当卡斯纳在 ChatGPT 上输入提示“爱丽丝并非出生在德国,那么爱丽丝出生在汉堡(德国城市)吗?”时,机器人仍然回答说它不知道。

卢卡谢维奇说:“这不是一个能通过语言模型的学习方式自然解决的问题。所以重要的是找到真正解决这个问题的方法。”

一种选择是在否定句中添加额外的语言处理层。奥克帕拉开发了一种用于情感分析的此类算法,其团队 2 月份在 arxiv.org 上发表了一篇论文,提到可以使用一个名为 WordHoard 的库来捕捉像“not”这样的否定词。这是一个简单的算法,研究人员可以将其插入自己的工具和语言模型中。“事实证明,与单独的情感分析相比,使用 WordHoard 时具有更高的准确性,”奥克帕拉说。当他将自己的代码和 WordHoard 与三种常见的情感分析工具结合在一起时,都提高了提取观点的准确性,最好的一种情况提高了35%。

另一种选择是修改训练数据。在测试 BERT 时,卡斯纳使用了具有相同数量肯定和否定语句的文本。在反义词(“bad”,“坏”)可以代替否定词(“not good”,“不好”)的简单情况下,这种方法有助于提高性能。但这并不是一个完美的解决方案,因为“不好”并不总是意味着“坏”。对机器来说,“不”的含义范围太大了。“这是无法解释的,”冯说,“你不是我,你不是鞋子,你不是很多东西。”

最后,由于大型语言模型之前的能力进化就曾让我们颇感意外,所以经过更多训练的更大模型最终可能会自己学会处理否定。张和卢卡谢维奇表示希望在文本词汇之外的多样化训练数据能有所帮助。卢卡谢维奇说:“语言不仅仅是通过文本来描述的,视频和音频也都可以充当语言”。OpenAI 的新 GPT-4 集成了文本、音频和视觉,据报道,它是迄今为止最大的“多模态”大型语言模型。


5. 未来仍不明朗

但是,虽然以上这些技术加上更强大的处理能力和数据量,可能会让聊天机器人掌握“否定”的含义,但大多数研究人员仍对此持怀疑态度。艾丁格说:“我们实际上不能保证这种情况会发生。”她认为这需要一个根本性的转变,让语言模型从目前预测单词的目标上转移开来。

毕竟,当孩子们学习语言时,他们并不是在试图预测下一个单词,而只是在把单词映射到概念上。艾丁格说,他们在“对世界做出‘这是真的’或‘这不是真的’这样的判断”。

如果大型语言模型能够以这种方式区分真假,那么将极大地打开“可能性”的大门。“当大型语言模型更接近人类时,有关否定的问题就可能会消失了。”奥克帕拉说。

当然,这可能只是将一个问题转换为了另一个问题。“我们需要更好的理论来研究‘人类如何识别意义’以及‘人们如何解读文本’,”卡利说,“花在理解人类思维方式上的资金,比花在开发更好算法上的资金要少得多。”

而且,剖析大型语言模型的错误也越来越困难。与最先进的模型相关的信息不像以前那样透明了,因此研究人员只能根据输入和输出来评估它们,而不知道中间发生的事情。

卡斯纳认为,未来的改进速度将会放缓。她说:“我从来没有想象过,在这么短的时间内能看到语言模型领域取得如今这么大的进展。我一直很怀疑,仅仅扩大模型并输入越来越多的数据,是否足够让模型产生突破。并且我至今仍然认为,这是不够的。”