知其然,但不知其所以然。

编者按:随着科技公司竞相改进和应用大型语言模型 LLM,研究人员仍然无法解释或“演绎”这些神秘“黑匣子”的内部机制。这就是人工智能 AI 聊天机器人非常可怕之处:没有人知道它们具体是如何工作的。本文来自编译,希望能对你有所启示。

像 ChatGPT、Bard 这样的大型语言模型(LLM),与过去的革命性技术相比,至少在一个方面有显著的不同,那就是:没有人确切地知道前者是如何工作的,甚至连构建模型的人都不清楚。

传统的计算机程序的编码十分详细,以指示计算机反复执行相同的任务。但神经网络,包括那些运行大型语言模型(LLMs)的神经网络,是以人类无法理解的方式和独特语言进行编程,并进行推理的。今年 2 月份,《纽约时报》记者 Kevin Roose 在与 Bing Chat 进行的一次神奇对话中发现它拥有两个完全不同的人格,微软首席技术官 Kevin Scott 无法解释为什么聊天机器人会说出诸如“我爱你”这样的话。

LLM 语言模型的这一“神秘又不可捉摸”的方面加剧了科学家们的担忧,即该技术的持续开发和应用可能会产生严重甚至是灾难性的意外结果。越来越多的科学家认为,随着 LLM 变得越来越好、越来越聪明,它们可能会被图谋不轨者(或国防机构)利用来伤害人类。一些人认为,由于人工智能系统将表现出与人类相比更高的智力和更强的推理能力,因此“它们最终与人类站在对立面”是其进化过程中可预测的、自然而然形成的结果。

今年 3 月,包括图灵奖得主约书亚·本吉奥(Yoshua Bengio)、史蒂夫·沃兹尼亚克(Steve Wozniak)和埃隆·马斯克(Elon Musk)在内的 1000 多名商界领袖和科学家签署了一封公开信,呼吁暂停开发比 GPT-4 更强大的 AI 系统至少 6 个月,部分原因是他们对这些人工智能系统的工作原理缺乏了解。

信中写道:“最近几个月,各个人工智能实验室陷入了一场失控又危险的竞赛中,他们致力于开发和部署更强大的数字思维,但即使是研发者也无法理解、预测或可靠地控制这些数字思维。”

目前,“人工智能教父”杰弗里·辛顿(Geoffrey Hinton)以更明确的态度加入了 AI 批评者的行列,公开谈论了他对 AI 的担忧。辛顿近期在麻省理工学院接受采访时说:“我认为人类完全有可能只是数字智能进化的一个过渡阶段。”辛顿最近辞去了在谷歌的工作,他之所以选择离职是想日后自己能够完全自由地讨论人工智能的危险性,他想要成为“吹哨人”,阻止危险事件发生。

“我要拉响警报,我们必须要为此担忧,虽然目前还不清楚是否有解决方案。” 辛顿从谷歌离职时表示。他还提到,当人工智能系统被允许设定自己的“子目标”时,它们最终会把人类视为实现这些目标的障碍。一个经典假设就是:一个负责解决气候变化问题的人工智能机器人可能很快就会认定,人类和人类习惯是引起气候变化的重要因素,所以人类是实现其目标的主要障碍。这种想法认为,拥有超人类智慧的人工智能可能很快就会学会去欺骗使用它的人类操作员。

这种危险直接关系到人类解读神秘黑匣子运行机制的能力。OpenAI 在本月发表的一篇关于人工智能可解释性的研究论文中似乎承认了这一点,OpenAI 的研究人员写道:“我们对它们内部工作原理的了解仍然非常有限。例如,使用者可能很难从输出中判断它们是使用了有偏见的启发式方法还是在胡编乱造。”

随着模型规模的不断扩大和算法不断优化,自然语言模型处理技术取得了巨大进步,研究人员发现自己在解释 LLMs 大型语言模型运行机制方面远远落后。人们投入更多的资金用于更新和优化迭代模型的性能,而不是用于更好地理解模型的内部运行机制。

那么,问题是,目前开发人工智能的利润驱动型科技公司能否在短期内充分了解 LLM 并有效管理长期风险?

机械可解释性:逆向工程神经网络

大型语言模型发展得太快了,可以说是飞速发展。这项技术目前的领先者——ChatGPT,由一种名为“radically souped-up transformer model”的技术驱动,该技术是谷歌在 2017 年的发明。从广义上讲,ChatGPT 作为处理序列数据的模型,其利用大量的文本语料库和复杂的计算能力进行训练,最终进化为一个对人类语言有着惊人敏锐直觉的巨型语言模型。

但 OpenAI 的 GPT 模型所做的不仅仅是预测句子中的单词。随着 ChatGPT 的更新迭代发展,在反复研究所有训练数据的同时,它们获取了关于世界运作的相关知识,拥有了复杂理性的计算能力。

但是,对人类语言的敏锐直觉是如何从模型对其训练数据的处理中产生的呢?LLM 在哪个网络层和神经元中将这些直觉应用于其输出的内容中呢?回答这些问题的唯一方法是对神经网络进行逆向工程,以此来对模型实现的算法给出一个机理上的解释。也就是说,跟踪网络中神经元之间复杂的相互作用网络,它们对输入(提示)做出反应,从而产生输出(答案)。这种重组被称为“机械可解释性”。

LLM 开发公司 Anthropic 的可解释性研究员约书亚·巴特森(Joshua Batson)说:“它的最小元素可能是一个单独的小神经元,看看它会对什么做出反应,然后会将这种反应传递给谁。”

支撑 ChatGPT 等工具的神经网络由一层又一层的神经元组成,这些神经元是复杂数学计算发生的连接点。当在没有人为对单词或短语进行标记,也没有人为对输出做出反馈的情况下,去处理堆积如山的文本数据时,这些神经元共同形成了一个抽象的多维矩阵,映射出单词与单词、单词和短语之间的关系。该模型能够理解单词或短语在上下文中的含义,并能够预测句子中接下来可能出现的单词,或者最有可能从语言提示中出现的单词。

神经网络架构大致是基于复杂生物体(人类)的神经系统所设计的,今天最先进的 LLM 模型有数亿个这样的神经元。经过几十年的研究,迄今为止神经科学还没有成功实现对生物系统的逆向工程。

LLM 开发者 Cohere 的首席执行官艾丹·戈麦斯(Aidan Gomez)表示:“神经科学试图采取自下而上的方法,事实证明这是一种非常困难的方法,因为跟踪整个路径是极其困难的。”戈麦斯说,“在一个活的有机体中,这种自下而上的方法意味着研究生物体获取感官数据的方式,并跟踪脉冲。因为神经脉冲从一个神经元传递到另一个神经元,最终形成可能导致行动的高阶神经元。”

在一个合成的神经网络中,跟踪一个神经元到另一个神经元的路径也同样困难。这很令人遗憾,因为正是在这些路径中,类似于 HAL 9000 的想法的起源出现了。

图像模型的成功

机械可解释性领域取得的突破性进展,要归功于神经网络方面的相关研究,尤其是那些旨在识别和分类不同类型图像的神经网络研究。在这些神经网络中,研究人员更容易确定单个神经元的具体任务,以及每个神经元的工作如何为识别图像内容的整体目标做出贡献。

在一个旨在识别图像中的汽车的神经网络中,有一层神经元可能专门用于检测表示特定形状(例如曲线或圆形)的像素组。这一层中的一个神经元可能会被激活,并向网络中的另一层神经元发送一个高概率分数,以判断这个形状是轮胎还是方向盘。随着这些连接的建立,智能 AI 会越来越确定此图形是一辆车。

因此,可解释性导致了微调的能力。正如 Anthropic 的巴特森解释的那样:“如果你想知道为什么不是汽车的东西被误认为是汽车了,可以通过神经网络追踪,你会发现是车轮探测器将煎锅错误指认成了轮胎。”

巴特森说,团队非常专注于研究 LLM 中的重要神经元组,而不是单个神经元。这有点像一群神经学家在人类大脑中探寻控制不同身体或心理功能的部分。

“也许我们正开始弄清楚神经网络的基本参与者是什么,并基于此探究神经元是如何相互作用的,例如‘它是如何映射物理世界的,它是如何映射情感世界的,它是如何思考文学或个体的’。这样,你便可以得到对于更大的神经元模块的理解。”

Anthropic 的联合创始人杰克·克拉克(Jack Clark)补充说:“我认为,目前的情况是,我们可以将这些可解释性技术应用于参数较小的文本模型,而无法应用于数千亿参数大小的巨型文本模型。目前人们面临的问题是,我们能以多快的速度将文本可解释性技术应用于更大的模型。”

可解释性和安全性

AI 公司投资解释性研究最迫切的原因之一,或许是为了找到更好的方法来在大型语言模型周围建立“防护栏”。如果一个模型容易输出有害言论,研究人员通常会研究系统对各种潜在风险提示的响应,然后对模型的发言进行限制,或者完全禁止模型对某些提示进行回应。

但西雅图艾伦人工智能研究所(Allen Institute for AI)模型可解释性研究员萨拉·维格莱夫(Sarah Wiegreffe)表示,这种方法确实存在局限性。她说:“这当然是有限的,因为考虑到模型可以接收的巨大输入空间,以及它可以产生的巨大输出空间,要合理地列举出现实世界中可能遇到的所有可能场景是相当困难的。”

在这种情况下,机械可解释性可能意味着在深层神经网络寻找导致不安全输出的关键计算点。“例如,最近的一些研究表明,如果你能在语言模型中定位某个事实陈述,那么就意味着你实际上可以编辑该模型的权重,并从根本上纠正它。也就是说在不需要重新训练整个系统的情况下,你可以修正模型来改变那些不正确的参数。” 维格莱夫说。

但是,凡事都有两面性,调整一个大型语言模型对一种有害行为的倾向性可能会阻碍它对我们喜欢的其他行为的倾向性。例如,明确的 “不要说……”命令可能会限制模型的创造性和即兴发挥的能力。即使用侵入性较小的方式来 "操纵"一个模型也会如此。

事实上,人工智能界的许多人仍然对“用逐个神经元的机械解释性来确保 AI 系统的近期和长期安全性”是否必要,持保留态度。

“鉴于我们的工作时限,我不认为这是研究智能系统的最佳方式。”Cohere 的戈麦斯(Gomez)说。

事实上,随着资本主义势力现在推动科技公司在每个行业生产 LLM,并很快将其用于个人技术(例如 Alexa 和 Siri),人工智能社区可能没有那么长的时间来加深他们对 LLM 如何工作的理解。

戈麦斯说:“最简单的方法就是要求系统引用其来源,我相信随着这些系统开始被用于更重要的任务,我们将不得不要求模型的输出要以事实为基础。”

没有基准

虽然存在大量的基准来衡量语言模型的性能,如人工智能的标准化测试,但还没有一组通用的基准来衡量 LLM 的可解释性。业界还没有采用 OpenAI 的评分系统来解释 LLM 中单个神经元的输出。

有很多研究人员尽他们最大的努力在研究 LLM 背后的工作机制,他们发表论文,探索研究模型的新技术,社区中的其他研究人员则试图在现有直觉的基础上理解现有的进步。巴特森说:“我们还没有一个可以达成一致并努力实现的指标或基准。目前我们已经了解了一些现象,现在正在把整体情况汇总起来。”

巴特森说:“当你看到它的时候,你肯定知道其中的内在机制。你会说,‘哦,好吧,这是对正在发生的事情更好的描述。”

可解释性与一致性

虽然 LLMs 的近期安全很重要,但未来的 LLMs 可能会带来远比输出错误答案更严重的威胁。研究员和哲学家尤德科夫斯基(Eliezer Yudkowsky)为人们敲响警钟,他表示随着 LLMs 变得更好,在智力上远远超过人类,以及它们变得更加自主,它们很有可能会开始违背人类的利益。

这种可能性可能比你想象的更大。让我们假设 LLM 在学习和推理方面不断进步,并且能够更好地捕捉数据(可能是实时视觉和音频数据),使其在现实世界中站稳脚跟,并开始共享数据和相互训练。让我们假设 LLM 最终成为 AGI(人工通用智能),并在重要方面的表现远远超过人类智能。如果不完全了解这些强大的 LLM 的早期先例,我们能否在其发展的各个阶段管理这些大型语言模型,使其与人类利益保持一致,不与我们作对,甚至不愿与我们作对呢?

目前人们在这个问题上仍然存在分歧。尤德科夫斯基和辛顿对人类是否能够管理人工智能系统中的一致性持严重怀疑态度,他们都不认为在这些系统中实现机械可解释性是一个万能解决方案。

尤德科夫斯基说:“如果你正处在一场全球人工智能军备竞赛中,人们会说减速没有意义,因为他们的竞争对手不会减速。”他认为 AI 系统将通过学习隐藏其内部过程,来抵制人类的安全训练。如果你试图利用自己的“作恶思想检测器”来训练这些巨大的、不可捉摸的语言模型矩阵,让它们不再“作恶”,你就是在训练它们反对作恶的同时,也在训练它们反对可见性。”

尤德科夫斯基说:“这就是为什么即使实现‘能够在 AI 的思维中看到警示标志’级别的可解释性,也并不意味着每个人都是安全的。”