桑希尔:现今的生成式AI模型会编造事实,而人类的记忆同样不可靠,但人和机器可以学着互补。
英国《金融时报》 约翰•桑希尔
凭借一个孤例(我)来推断或许有失草率,但坦白说,我的记忆并不完美:我会忘记一些事情,记错一些事情,偶尔“记得”从没发生过的事情。我想,一些英国《金融时报》读者的记性或许也同样稀里糊涂。一台智能机器可能会把这叫做“人类的幻觉”。
大家都在讨论生成式AI模型有编造事实的情况。有位律师在向法庭提交的文件中列举了纯粹是ChatGPT编出来的几个虚假案件,令人匪夷所思。一位英国《金融时报》的同事让ChatGPT用图表展示生成式AI模型的训练成本,却吃惊地看到,它列出来的成本最高的模型其实并不存在(除非该聊天机器人能接触到什么内幕信息)。每一位用户很快都会发现:这些模型并不可靠——就和人类一样。一个有意思的问题是:机器是否比人类更好纠正?事实可能证明,重写代码比给大脑拨乱反正更容易。
一个最能说明人类记忆容易出错的例子是约翰•迪恩(John Dean)当年的证词,他是理查德•尼克松(Richard Nixon)执政时期白宫的法律顾问。在1973年“水门事件”听证会上,迪恩因为他那非凡的记忆力而被称作“人体录音机”。迪恩不知道的是,尼克松在总统办公室里装了一部真正的录音机。因而研究人员能够将迪恩对一些重要谈话的叙述与根据录音所作的书面记录进行对比。
在1981年一篇对迪恩证词加以分析的论文中,心理学家乌尔里克•奈瑟尔(Ulric Neisser)指出,这位律师的叙述中出现了几处明显的偏差,并且存在若干对谈话内容进行再解读的情况。奈瑟尔强调了界定真实性和准确性的困难。他在文中把记忆分为语义记忆(semantic memory)和情景记忆(episodic memory)。迪恩对他与尼克松谈话的要点以及水门事件的性质记得大致准确,尽管他对某些特定事件的细节完全记错了。
有人可能认为大型语言模型正相反:鉴于此类模型吸收了大量数据,它们应该具有良好的情景记忆(尽管它们若是吸收了垃圾信息就会产生垃圾内容)。但它们在语义记忆方面仍然很差。比起迪恩时隔几个月后对谈话的回忆,大型语言模型也许能够更加如实地还原总统办公室里的录音内容,但是,大型语言模型无法根据上下文理解这些内容的涵义。