编者按:近日,风靡全球的 ChatGPT 刷新了不少人对智能机器人的认识。专业人士们将机器人技术推向新的领域的同时,机器人也在迅速而永久地改变人类的生活。机器人现在变得有多聪明了?除了下棋、聊天、生产艺术作品外,它还将在哪些领域改变人们的生活?本文来自编译。

在其他玩家看来,弗朗茨·布罗塞夫 (Franz Broseph) 与其他的《外交》游戏网络玩家没什么区别。

《外交》是游戏中的经典之作,受到肯尼迪和亨利·基辛格等人的喜爱,它将军事战略与政治谋略结合起来,再现了第一次世界大战的场景:玩家手握军队,需要与盟友、敌人以及介于两者之间的所有人进行谈判。

居住在荷兰的化学家德·格拉夫在比赛中获得了第五名的好成绩。他花了近 10 年的时间参加这个比赛,包括在网上和在全球各地的线下比赛。然而,几周后他才意识到,他竟输给了一台机器人。这台机器名叫弗朗茨·布罗塞夫,是一个人工智能机器人。

36 岁的德·格拉夫说:“当时我很吃惊,它看起来如此逼真,栩栩如生。它能够阅读我的消息,与我交谈,并制定对双方都有利的计划。这使得我们两个人都能取得进展。但它也会对我撒谎,背叛我,就像一名顶级玩家经常会做的那样。”

弗朗茨·布罗塞夫是由一支由科技巨头 Meta、麻省理工学院和其他知名大学的人工智能研究人员组成的团队制造的,是新一波在线聊天机器人中的佼佼者,它正在迅速将机器人技术推向新的领域。

当你与这些机器人聊天时,感觉就像在与另一个人聊天。换句话说,它可以 “感觉“ 到你,这些机器已经通过了一部分智力测试。

70 多年来,计算机科学家一直在努力建造能够通过图灵测试的技术:在这个技术拐点上,我们人类不再确定我们是在与机器还是与人聊天。该测试是以艾伦·图灵命名的,他是著名的英国数学家、哲学家和战时密码破译者,早在 1950 年就提出了该测试。他认为这一测试可以向世界展示机器何时最终达到 “真正的智能”。

图灵测试是一个主观的衡量标准。它取决于问问题的人是否确信他们是在与另一个人交谈,而实际上他们是在与一台设备交谈。

从客观上看,机器人领域的发展已经到了新的阶段。这样的机器人,如弗朗茨·布罗塞夫,已经在特定情况下通过了测试,例如谈判外交行动或预订餐馆晚餐。去年 11 月,旧金山的 OpenAI 实验室发布了机器人 ChatGPT,让人们感觉就像是在和另一个人聊天,而不是与机器人聊天。

ChatGPT 几乎可以写任何东西,包括学期论文,因此大学担心学生会用它来完成课堂作业。有些人在与这些机器人交谈时,甚至认为它们具有知觉和意识,并且认为机器已以某种方式发展出对周围世界的认识。

OpenAI 已经私下构建了一个比 ChatGPT 更强大的系统即 GPT-4,它甚至可以生成图像和文字。

然而,这些机器人并不具有智慧:它们没有意识,也不具有人类智能。甚至该技术的制造者也承认了这一点。

这些机器人在一些特定类型的对话中表现相当出色,但却不具备像人类那样对意外情况作出反应的能力。它们有时会说错话,并且无法纠正自己的错误。虽然它们在某些方面的表现可以超过人类,但在其他方面却不如人意。与以前的类似系统一样,它们主要做的是为熟练工人提供辅助,而不是取代他们。

其中一个问题在于,当机器人模仿人类对话时,它可能看上去比实际上更具有智慧。当我们看到宠物或机器有类似人类行为时,我们很容易产生误解,认为它在其他方面也像人类一样,即使实际情况并非如此。

OpenAI 的首席科学家、过去十年间最重要的人工智能研究者之一伊利亚·苏茨克沃 (Ilya Sutskever) 说:“这些系统可以完成很多有用的任务,但在特定的方面表现却不尽如人意。人们有时会高估它们的能力。”

随着先进技术不断涌现,可以明确的是,科学家们必须重新思考并重新定义他们追踪人工智能发展的方式。图灵测试已经不再能胜任这项任务。

人工智能技术不断超越众多曾经被认为无法逾越的测试,包括 1997 年它赢得了国际象棋比赛、2016 年的围棋比赛以及 2019 年的扑克比赛。

作为公众,我们需要一个新的框架来理解人工智能的能力和局限,以及它未来可能带来的影响。


模拟游戏

1950 年,阿兰·图灵在其论文 《计算机机械与智能》中发表了一种确定新型计算机是否具有思维能力的方法,他称之为 “模拟游戏”,这是在他提出世界上第一台计算机的想法 15 年后。当时,科学界正在努力了解计算机是什么:是一个数字大脑吗?还是其他的什么?图灵的提议为这个问题提供了一种答案。

模拟游戏涉及两次对话:一次是与机器的对话,另一次是与人类的对话,两者都通过文本聊天进行,因此对话的另一方无法立即确定他或她是在与谁交谈。

如果随着对话的进行,该人无法分辨这两个对话者,则可以说机器具有思维能力。图灵写道,问答法适用于我们希望包括的几乎任何领域。这种测试可以包括从诗歌到数学的所有内容,并以下列假设的对话为例。

问:以福斯桥为主题写一首十四行诗。

答:不好意思,我没法为您写诗。我并不擅长写诗。

问:将 34957 与 70764 相加。

答:好的,请稍等一下。(约 30 秒后)结果是 105621。

问:你会下棋吗?

答:是的,我会下棋。

问:当前棋盘上 K1 处有 K,除此之外没有其他棋子。而我拥有 K6 处的 K 和 R1 处的 R。请问你要如何下棋?

答:请稍等一下。(约 15 秒后)我会走 R-R8 这一步。

在图灵测试被提出的时候,计算机还不具备聊天的能力。科学家们通过打字机、磁带和打孔卡将数学公式和文字指令输入到巨大的真空管计算机中进行交流。

随着技术的发展,研究人员开创了一个新领域,即人工智能。这是一项旨在建造能够像人类一样思考的机器的领域。

“人们迄今为止并未能建立起流畅的对话系统,这的确是一件非常困难的事情,” 专门研究计算语言学(包括图灵测试)的哈佛大学计算机科学家斯图尔特·希伯 (Stuart Shieber) 表示,“但它是一个值得期待的目标。”

1960 年代中期,机器就可以进行简单的聊天了,但人们却误以为它们比实际上的更加智能。

在麻省理工学院,研究人员约瑟夫·韦森鲍姆 (Joseph Weizenbaum) 建造了一个名为 “伊丽莎” 的机器人治疗师,它只是通过重复用户话语来回答问题。然而,有些人将其误解为真正的治疗师,甚至向其透露了私人秘密。

随着时间的推移,聊天机器人的发展速度很缓慢。研究人员设定了一系列规则来定义机器人的行为,但这远远不够。因为自然语言太复杂了。

2014 年,在 AI 领域研究进行了 60 多年后,圣彼得堡的三名研究人员创造了一个名为尤金·古斯特曼 (Eugene Goostman) 的机器人,它学会了模仿一个 13 岁的乌克兰人说话,并使用英语作为第二语言。然而,关于它通过了图灵测试的说法被大大夸大了。

当被问及 “鞋盒和珠穆朗玛峰哪个更大?” 时,它回答说:“我现在无法作出选择。” 当被问及 “骆驼有几条腿?” 时,它回答说:“大约在 2 和 4 之间,也可能是三条?:-))) ”

然后,大约三年后,谷歌和 OpenAI 等研究人员开始建立一种新的人工智能。而从这个时候开始,它才进一步走出研究领域,成为大众所熟知的 “聪明的机器人”。


“为我写一首十四行诗”

最近的一个早晨,我向 ChatGPT 提出了图灵在 1950 年的论文中提出的同样问题。它立刻生成了一首关于福斯桥的诗:

它的红漆在晨曦中闪闪发光,

令人眼前一亮,令人目不暇接,

它的威严和壮丽从未停止过。

然后它正确地算出了 3495 与 70764 之和,不需要 30 秒就能完成。当我像图灵那样列出一盘棋的结局时,它以典型的清晰、简洁、自信的散文回应。它似乎理解了这种情况,但其实它误将棋局的结束误认为是开始,因此没有正确回应。

ChatGPT 是研究人员所称的神经网络,它是一个以大脑神经元网络为模型的数学系统,并且是翻译英语和西班牙语的技术(如谷歌翻译),以及识别行人的技术(如自动驾驶汽车)。

神经网络通过分析数据来学习技能,例如,它可以通过在数以千计的停车标志照片中寻找模式来学会识别停车标志。

五年前,谷歌、OpenAI 和其他人工智能实验室开始设计神经网络,分析海量数字文本,包括书籍、新闻报道、维基百科文章和在线聊天记录,研究人员称它们为“大型语言模型”。它们通过在人们连接单词、字母和符号的方式中寻找数十亿种不同的模式,学会生成自己的文本。

它们可以创作推文、博客、诗歌,甚至是计算机程序。它们还可以进行对话,至少在一定程度上可以对话。它们可以把毫无关联的概念无缝地结合在一起。你可以要求它们改编皇后乐队的流行歌曲《波西米亚狂想曲》,让它变成一个博士后学者的生活狂想曲,它们都能完成。 

伦敦 DeepMind 实验室的深度学习研究高级主管奥里奥斯 (Oriol Vinyals) 说:“人们已经建立了突破性的系统,可以应用于从语言到三维视频游戏的各个方面。” 机器人能够以你想不到的方式结合各类概念。

多年来,研究人员、企业和其他早期采用者一直在测试这些系统。最初,它们很难使用,而且生成了很多废话。但是经过 ChatGPT,OpenAI 已经完善了这项技术。

当人们对 OpenAI 的系统的早期版本进行测试时,OpenAI 要求他们对它的表现给出评分,以确定它是否令人信服、真实或有用。为了提高系统的效果,该实验室通过强化学习技术,利用这些评价打磨系统,并且更深入地定义了它应该做什么以及不应该做什么。

最终,人们创造了类似 ChatGPT 这样回答个人问题的聊天机器人,这正是图灵曾经想象过的事情。谷歌、Meta 以及其他组织也建立了类似的机器人。

但是,虽然它们的语言能力令人惊讶,它们的话语和想法并不总是有理性或正确的。比如,这些系统在生成菜谱时并未考虑食物的味道,对于事实和虚构也没有明显的区分,并且对于国际象棋的走法也总是 “出错但仍然很有信心”。

因为它们是基于整个互联网的数据进行训练的,而互联网数据是真假参半的,所以它们能够处理无数的情况,但又会犯很多错误。

OpenAI 的研究人员将这些机器人比喻为特斯拉的 “全自动驾驶” 技术。这是一项实验性技术,可以在城市街道上实现自动驾驶,但作为人类驾驶员,你仍然需要把注意力放在道路上,随时准备控制车辆。“它可以完成各种任务,比如转弯,停车,识别行人, 但你仍然需要经常进行干预。”

ChatGPT 是一个能够回答任何问题的机器人,但如果将它引入其他方向,它很容易出现故障。弗朗茨·布罗塞夫可以进行几分钟的外交谈判,但如果每次谈判的时间再长一点,对方很可能就会意识到它是一个机器人了。此外,如果将它带到其他情况下,比如接听技术支持电话,它就不再有任何价值了。


一项新测试

在发布其聊天机器人的六个月前,OpenAI 发布了一个名为 DALL-E 的工具。

这一实验性技术是对 2008 年关于机器人的动画电影《瓦力》和超现实主义画家萨尔瓦多·达利的致敬,它可以让你通过描述你想看到的东西来创造数字图像。

这也是一个神经网络,构建得很像弗朗茨·布罗塞夫或 ChatGPT。不同的是,它同时从图像和文本中学习。通过分析数以百万计的数字图像和描述它们的标题,它学会了识别图片和文字之间的联系。这就是所谓的多模态系统。

谷歌、OpenAI 和其他组织已经在使用类似的方法来建立能够生成人和物体视频的系统。初创公司正在建立机器人,可以代表用户浏览软件应用和网站。

这些系统不是任何人都能用图灵测试(或任何其他简单的方法)正确评估的。因为他们的最终目标不是对话。 

谷歌和谷歌母公司旗下的 DeepMind 的研究人员正在开发测试,旨在评估聊天机器人和像 DALL-E 这样的系统,以判断它们做得好的地方,以及在哪里缺乏理性和常识等。

一项测试向人工智能系统展示视频,并要求它们解释发生了什么。例如,在观看了某人摆弄电动剃须刀后,人工智能必须解释剃须刀为什么没有打开。这些测试感觉很像图灵测试,但又不完全一样。

我们需要一些更实用的判断标准,能够真正告诉我们这些系统哪些做得好,哪些做得不好,它们将如何在短期内取代人类劳动,以及它的局限是什么。华盛顿大学名誉教授、西雅图著名实验室艾伦人工智能研究所的创始首席执行官奥伦·埃齐奥尼(Oren Etzioni)说:“我们需要转变观念:不再通过将机器与人类行为进行比较来判断智能。”

图灵测试是用来判断机器是否具有模拟人类思维的能力的。后者是人工智能的一个典型表现。然而,现在正在开发的技术与人类完全不同,它们无法理解以前从未遇到过的概念,也无法将思想带到物理世界中进行探索。

ChatGPT 的情况也说明了这一点。随着越来越多的用户对它进行实验,它展现出了它的能力和局限性。比如,当一位推特用户询问 ChatGPT 在序列 “O T T F F S S” 的下一个字母是什么时,它给出了正确的答案(E)。但是它给出正确答案的原因是错的——它并没有意识到以上的序列规律是它们都是英语中数字 1 到 8 的第一个字母。

同时,这些机器人在许多方面比人类更优秀。它们不会疲倦,不会被情绪影响,可以立刻掌握大量的信息,并以人类无法实现的速度和数量生成文本、图像和其他媒体。

研究人员们正在进一步提高这些系统的技能,未来几年内,它们的技能将会得到极大的提升。比如,经过几个月的训练后,ChatGPT 会发展出许多之前未曾有过的对话技能。

“我们已经找到了一套技术,它可以方便地扩展,” DeepMind 的高级研究主管拉雅·哈赛尔 (Raia Hadsell) 说,“这是一种简单而强大的方法,并且还在不断提升。”

过去几年中,我们看到聊天机器人的改进呈指数级增长,但这种改进不可能永久持续。随着时间的推移,相应的突破和创新可能会逐渐趋于平稳。尽管如此,AI 系统仍将继续改进,从而能使它们掌握涉及图像、声音和计算机代码的日益复杂的技能。计算机科学家将努力将这些机器人与其他系统结合起来,使得它们能够完成人类无法完成的任务。

ChatGPT 尚未通过图灵测试,但我们知道,早在 1997 年,计算机就能在国际象棋比赛中击败最优秀的人类选手。将 ChatGPT 插入国际象棋程序,就能填补更多漏洞。

在未来数年里,这些机器人将帮助你在互联网上寻找信息,以便轻松理解相关内容。如果你愿意,它们甚至可以为您撰写推文、博客文章和学期论文。

它们还将在你的电子表格中列出每月的开支,以帮助你更好地管理财务。它们会访问房地产网站,为您寻找符合预算要求的房屋。此外,它们还会模拟真人,使其看起来和听起来都与人类极其相似。最后,它们将制作出让人愉悦的迷你电影,并配以美妙的音乐和对话。

前 Salesforce 首席研究科学家布莱恩·麦肯 (Bryan McCann) 表示:“这将是下一个皮克斯般的突破,任何人都可以快速制作出高度个性化的电影。” 他目前正在和一家名为 You.com 的初创公司探索聊天机器人和其他人工智能技术的应用。

ChatGPT 和 DALL-E 所展示的情形,将是令人惊奇、迷人和有趣的。它也令我们不禁思考:它将如何影响我们的生活?拍摄电影的从业者将会受到怎样的影响?这种技术是否会导致网络上充满了看似真实却实际上虚假的影像?他们的失误是否会将我们引入歧途?

《总统班底》讲的是卡尔·伯恩斯坦和鲍勃·伍德沃德揭示水门事件的经典故事。在这个故事中,伍德沃德在大学一年级时写了一篇历史论文,在阅读了许多关于国王亨利四世在 1077 年向教皇格雷·戈里求饶时赤足站在雪地上数天的文献后,伍德沃德将这个轶事写入了他的论文。

然而,他的教授却给这篇论文打了不及格,并解释说,没有人能够赤足站在雪地上数天而不被冻死。教授说:“国王的神圣权力不能打破自然规律和常识。”

同样,就像将历史轶事信以为真一样,ChatGPT 很可能犯同样的错误。在这种情况下,你需要扮演教授的角色。

机器人将改变世界。但是你有责任对它们的言行保持警惕,审核它们提供给你的内容,对网上看到的东西持怀疑态度。研究人员知道如何赋予这些系统广泛的技能,但他们还不知道如何赋予它们理性、常识或真理感。

最终还是要靠人类自己。