桑希尔:现今的生成式AI模型会编造事实,而人类的记忆同样不可靠,但人和机器可以学着互补。
英国《金融时报》 约翰•桑希尔
凭借一个孤例(我)来推断或许有失草率,但坦白说,我的记忆并不完美:我会忘记一些事情,记错一些事情,偶尔“记得”从没发生过的事情。我想,一些英国《金融时报》读者的记性或许也同样稀里糊涂。一台智能机器可能会把这叫做“人类的幻觉”。
大家都在讨论生成式AI模型有编造事实的情况。有位律师在向法庭提交的文件中列举了纯粹是ChatGPT编出来的几个虚假案件,令人匪夷所思。一位英国《金融时报》的同事让ChatGPT用图表展示生成式AI模型的训练成本,却吃惊地看到,它列出来的成本最高的模型其实并不存在(除非该聊天机器人能接触到什么内幕信息)。每一位用户很快都会发现:这些模型并不可靠——就和人类一样。一个有意思的问题是:机器是否比人类更好纠正?事实可能证明,重写代码比给大脑拨乱反正更容易。
一个最能说明人类记忆容易出错的例子是约翰•迪恩(John Dean)当年的证词,他是理查德•尼克松(Richard Nixon)执政时期白宫的法律顾问。在1973年“水门事件”听证会上,迪恩因为他那非凡的记忆力而被称作“人体录音机”。迪恩不知道的是,尼克松在总统办公室里装了一部真正的录音机。因而研究人员能够将迪恩对一些重要谈话的叙述与根据录音所作的书面记录进行对比。
在1981年一篇对迪恩证词加以分析的论文中,心理学家乌尔里克•奈瑟尔(Ulric Neisser)指出,这位律师的叙述中出现了几处明显的偏差,并且存在若干对谈话内容进行再解读的情况。奈瑟尔强调了界定真实性和准确性的困难。他在文中把记忆分为语义记忆(semantic memory)和情景记忆(episodic memory)。迪恩对他与尼克松谈话的要点以及水门事件的性质记得大致准确,尽管他对某些特定事件的细节完全记错了。
有人可能认为大型语言模型正相反:鉴于此类模型吸收了大量数据,它们应该具有良好的情景记忆(尽管它们若是吸收了垃圾信息就会产生垃圾内容)。但它们在语义记忆方面仍然很差。比起迪恩时隔几个月后对谈话的回忆,大型语言模型也许能够更加如实地还原总统办公室里的录音内容,但是,大型语言模型无法根据上下文理解这些内容的涵义。
研究人员正在设法进一步改善生成式AI模型的情景记忆,减少幻觉。谷歌(Google) DeepMind的研究人员在最近发表的一篇论文中提出了一种新方法,叫做“搜索增强事实评估器”(search-augmented factuality evaluator,简称Safe)。模型生成的应答被分解成许多句子,与谷歌搜索(Google Searc)交互核查真实性,或者说事实的正确性。该论文声称,这个试验系统在准确性方面胜过负责事实核查的人类标记员,而且成本不到后者的的二十分之一。
“未来几年我们对大型语言模型输出结果的核查将能达到较高的准确性,我认为这是相当有用的,”该论文的作者之一Quoc Le对我说道。他表示,从创造力的角度来说,幻觉是大型语言模型一个可喜的特色,而从真实性来说,幻觉是一个需要抑制的缺陷。
与此同时,大型语言模型还会混淆创造性与真实性。例如,当我问微软必应(Microsoft Bing)旗下的Copilot,徒步跨越英吉利海峡的世界纪录是多少时,它自信地答道:“完全凭借徒步跨越英吉利海峡的世界纪录由德国的克里斯托夫•万德斯奇(Christof Wandratsch)保持,他在2020年8月14日用14小时51分钟完成此举。”它还提供了引用这一事实的出处,可以说很方便了。遗憾的是,其参考来源是去年发布的一篇论述ChatGPT会产生幻觉的文章。
RWS首席语言官玛丽亚•施内尔(Maria Schnell)表示,我们不仅应该关注内容是如何创造出来的,还应关注内容如何触达受众。RWS提供技术赋能的文本及翻译服务,拥有超过8000个客户,涉及548种语言对。在这个内容日益廉价且无所不在的世界,向特定受众以他们能理解的形式、语言和文化背景提供量身定制的信息将变得尤为重要,而这需要以人为本。
“准确性是相对容易自动化的,而相关性(Relevance)就未必了。”施内尔表示。“我们必须思考内容是如何被接收的,这是AI存在困难的地方。”
就目前来说,至少人类和机器可以卓有成效地合作,最大程度地各展所长,并尽量减少各自的缺陷。