【作者】林曦
【内容提要】
人工智能“幻觉”的存在主义阐释
林曦 复旦大学政治哲学教授、社会科学高等研究院院长助理
摘要:在文本生成和处理领域,人工智能所生成的文本可能是无意义、不连贯或者是循环往复的。人工智能所生成或处理的文本有可能不忠实于文本的来源,这种偏离理想预期的文本成本被称为人工智能“幻觉”。随着人工智能应用的不断拓展,人工智能“幻觉”成为一个亟待探讨和解决的问题。在计算机科学领域中,“幻觉”主要是由输出内容和源内容之间的映射关系的扭曲或者破坏而产生,这其实与萨特的存在主义框架存在同构性。萨特的存在主义在显象和本体之间构建了一种映射关系,而这种映射关系是从存在主义的角度来讨论“幻觉”的产生机制。这一框架为我们探讨人工智能的“幻觉”问题提供了一个阐释学的工具和手段,可以用来检视人工智能“幻觉”的产生机制及其相应的伦理风险。
萨特曾经从存在主义的视角论述过“幻觉”问题。在萨特看来,存在物及其显象之间的关系涉及我们对“幻觉”的定义和看法。如果我们相信这个世界只有物自体或者存在物本身才是真实的,而且这种真实性具有排他性和唯一性,那么作为揭露存在物存在的显象本身就变成了被这种排他性的真实否定的对象。换言之,显象就成了某种纯粹否定的客体,它因为无法满足“真实性=物自体/存在物”这样一个方程式而沦落为被真实性排斥在外的某种否定性之客体,从而无法获得按照这个方程式或者标准而取得的真实性,显象变成了“非存在物的对象或者客体”,它的存在本身就是一种“幻觉”。萨特的存在主义观点其实是在显象和本体之间构建了一种映射关系,这种映射关系是从本体论的角度来讨论“幻觉”的产生和变化的。萨特在探索存在与显象的关系时,认为我们遇到了一个关键的区别——表象的概念并不仅仅是一个掩盖某些隐藏的终极现实的门面,因为表象本身也不是某个真实存在的不可靠或不稳定的表现。如果我们认为,本质存在的概念占据了主导地位,那么显象就会被贬低为纯粹的消极概念,进而与真实的存在相对起来。换言之,显象此时就变成了“非存在”。这样的一种贬低意味着显象与存在之间失去了维系其稳定关联的联系,这种联系就是一种映射关系,即显象是存在在现象层面上的一种投射,如果失去了这种映射关系,那么表象就会被“贬低”或者“否定”了,会让表象沦为纯粹的幻觉和错误。因此,在萨特看来,最紧迫的挑战不再是如何保持表象的凝聚力,防止其崩溃回无形的非现象的虚空,而是如何重新定义存在与表象之间的关系。我们必须超越本质与表象的模型,认识到表象与存在之间相互勾连的方式。正是在表象的领域,即存在者向世界的整体呈现中,我们才得以感知其存在——它并非隐藏真相的微不足道的反映,而是存在形成和获得意义的真正方式。所以,在萨特的存在主义框架之中,显象并不只是存在的简单的表现,而本身也是一种“积极性”,它并不是存在的附属品;恰恰相反,显象本身也体现了自身的一种绝对性,是其“自身的绝对的表达”。显象与存在物都表达了一种“积极性”,而真实与否的评价是可以同时适用于这两者的,尤其是二者之间的映射关系。如果我们割裂了这种映射关系或者该关系遭到了破坏,那么幻觉和错误就会产生。萨特所讨论的这种存在论角度的“幻觉”产生机制,有助于我们理解人工智能所产生的“幻觉”,本文试图从这种存在主义的角度来探讨人工智能的“幻觉”问题。为此,我们将首先对计算机科学领域的“幻觉”进行一个定义,然后通过萨特的存在主义框架对其进行分析。
一、计算机科学领域中的“幻觉”
“幻觉”是一个神经科学和心理学的概念,本意是指感觉接受器对客观经验不准确的主观再现。从临床的角度来看,“幻觉”发生的条件是不同程度的感觉接受功能被排除在意识范围之外,这种排斥通常具有病理学的基础,即在人的大脑区域内,感觉器官和大脑皮层感觉感受区之间某个地方的感觉神经通路可能存在损伤,或者大脑皮层感觉感受区受到一定程度的损伤,除此之外,听觉、味觉、视觉等感官接受器、神经以及相关方面的疾病也会引起相应身体感官的幻觉。“幻觉”可能会具有两种形态,一种是“简单幻觉”,另外一种是“复杂幻觉”。前者指的是人的身体中感觉感受器或感觉神经受伤或者大脑皮层的感觉感受区受到轻微损伤而导致的幻觉,该幻觉主要是由受伤的单一感觉组成的。相比之下,如果大脑感觉感受区遭受了大面积的损伤,则可能会出现由多种甚至所有感觉模式的记忆组成的幻觉,这种现象被称为“复杂或者复合幻觉”。
“幻觉”一词在计算机科学领域中的应用,最早可以追溯到贝克和金出武雄在其计算机视觉研究中提出的算法。在计算机视觉和图像处理领域内,贝克和金出武雄提出了一种针对图像处理的“幻觉算法”,旨在增强监控图像中人脸识别的分辨率,即便原始图像的分辨率比较低,也同样可以通过这个算法提高分辨率,从而避免额外复杂性。同时,哪怕是将采样图像加入不同标准差的高斯噪声,该“幻觉算法”对此类噪声也具有相当的鲁棒性。针对多图像,如果原始图像以子像素为单位进行多次随机平移,在此基础上形成一系列的输入图像,那么可以在使用标准参数运动算法对输入图像进行对齐之后再应用“幻觉算法”,同样可以达到对图像质量进行增强的结果。后来,这一算法还应用到了图像内绘以及图像合成上。所以,在计算机视觉领域,幻觉指的是一种特定的图像增强算法,一般是从积极和正面的角度来加以使用。
近年来,有研究者开始从负面的意义上来使用“幻觉”这一词语。图像描述模型可能会直接“幻化”出实际上不在图像场景中的物体,被称为“对象幻觉”,即人工智能根据外界所输入的图像来直接生成一个作为文本输出的句子描述,而这个文本输出的句子描述中包含了该图像所没有囊括的一个客体或者对象。之所以会产生这种“对象幻觉”,可能原因就在于人工智能在视觉处理过程所产生的分类错误,以及在文本输出过程之中人工智能过度依赖语言先验而导致的输出与源图像产生“脱节”。现在的人工智能大都依赖“大语言模型”,依靠海量的语言数据来进行机器学习和模型训练,可能导致人工智能按照单词出现前后顺序的统计学结果,去记忆哪些单词更有可能“扎堆出现”。通过这种强统计关联来进行文本的输出也会使输出的内容与源图像弱关联甚至无关联,这就是由于人工智能过度依赖事先输入的语言数据而产生的“语言一致性错误”,即图像描述模型所产生的错误,与仅基于先前生成的单词进行预测的大语言模型所产生的错误,这两种错误之间存在一致性。这种一致性在对图像描述模型进行训练的初期阶段表现得尤为明显,图像描述模型的错误与大语言模型的错误保持了较高的一致性。这说明图像描述模型先要通过机器学习和数据训练,学会用流畅的自然语言来生成文本进行文本输出,在此基础上才能一步步去整合视觉信息,将视觉信息转化为自然语言的输出文本。相似地,在图像的对象检测中,同样会出现“幻觉”现象。在计算机视觉领域,图像的分析和处理会涉及对图像中的各种物品和对象进行自动定位和检测,如果人工智能在文本输出的过程中,对不存在于源图像之中的物品进行了检测和描述,那么就会被称为“幻觉”,即人工智能检测到了不存在于图像之中的物品或者对象。
这样一种从负面意义上来探讨计算机视觉研究领域之中的“幻觉”的角度,为研究者讨论人工智能的幻觉问题提供了思路。在人工智能的自然语言生成领域,大家所讨论的“幻觉”,其实也是人工智能会出现的一种错误。有研究者在2023年8月16日对ChatGPT3.5进行查询时,ChatGPT对“人工智能幻觉”给出了一个定义,认为其是“生成的内容并非基于真实或现有数据,而是由机器学习模型对其训练数据进行推断或创造性解释而产生的”。这些“幻觉”的表现形式多种多样,如图像、文本、声音甚至视频。当机器学习模型,尤其是生成模型等深度学习模型,试图生成超出其从训练数据中学到的内容时,就会产生人工智能“幻觉”。这些模型从训练数据中学习模式和相关性,并试图根据这些模式生成新的内容。然而,在某些情况下,它们生成的内容看似合理,但实际上是各种学习元素的混合体,导致生成的内容可能没有意义,甚至可能是超现实的、梦幻的或奇幻的。由ChatGPT自己给出的关于人工智能“幻觉”的定义是有意义的,它基本上概括了在人工智能领域,“幻觉”作为一个问题所包含的内容、表现形式以及形成原因。在这个ChatGPT的回答中,“幻觉”主要体现为人工智能所生成的输出内容,并不是根据真实或者现有的数据来进行的,而是因为人工智能的模型或者算法在机器学习的过程中,对所提供的用于预训练的大型语料库进行分析处理,包括编码、解码、机器解释、推断和输出等步骤,最终形成的输出文本与真实数据或者现有数据不一致,从而导致了“幻觉”。
从上文的定义可以看出,在计算机科学领域中,“幻觉”主要针对的是由输出内容和源内容(输入内容)之间的映射关系的扭曲或者破坏而产生,这其实与萨特的存在主义框架存在同构性,二者都是讨论在何种机制上幻觉或者错误会产生。这一点在计算精神病学这一学科领域之中也有所体现。作为计算科学和精神病学交叉的一个学科,计算精神病学是从计算的角度来对认知和行为进行解释,这通常会涉及计算过程中的算法模型,将输入和输出进行匹配,考察二者之间的映射关系,亦即萨特存在主义框架所强调的这种“映射关系”。计算精神病学主要是针对认知和行为进行一个形式化的解释和分析,期望能够在精神病理学层面上对行为和认知进行预测和控制。这种形式化分析的着眼点主要在于输入和输出之间的映射关系,这体现了认知和行为的心理能力。根据这种观点,认知和行为首先依赖于按照特定结构而得以输入的初始信息,这些初始信息以各种各样的数据形式得以体现,比如感官知觉信息或者大数据,经过处于中间环节的算法的处理,这些输入就能够转化为特定形式的结果输出。算法就是针对某种特定任务或者问题而形成的解决方案的方程式,它描述了认知或者行为在应对特定的任务或问题的过程中所具备的推理和运算能力,一般表现为特定推理步骤按照一定逻辑顺序进行排列组合而得到的方程式。通过对输入和输出之间的映射关系进行解释和分析,计算精神病学旨在为我们揭示认知和行为背后可能存在的机械计算过程和原理。相应地,在计算精神病学视野下的精神疾病症状则是由计算过程、算法模型或者输入输出信息错误等因素而导致的特定精神病理学现象。无独有偶,德勒兹和瓜塔里曾经提出过“唯物主义精神病学”的理论论述,对我们理解人工智能“幻觉”也有所启发。在德勒兹和瓜塔里看来,首先存在一个“真正的唯物主义”和一个“虚假的唯物主义”,后者同各种唯心主义的“典型形式”没有很大的区别。德勒兹和瓜塔里之所以认为“虚假的唯物主义”和典型形式的唯心主义有共同之处,是因为二者都脱离了产生这种思想形式的物质现实,变成了一种唯心论的形而上学形式。这种形式的唯物主义虽然表面上以具体事物为基础,但最终屈服于抽象的诱惑,成为一个脱离构成物质世界的各种力量动态相互作用的无实体和形而上的体系。这会导致我们脱离经验观察而追求普遍和先验的知识,从而陷入超验的幻象。在德勒兹和瓜塔里看来,“虚假唯物主义”在追求固定范畴和决定论法则的过程中,忽视了偶然性、独特性和物质现实不断变化等因素。这种与物质现实的分离使得“虚假唯物主义”与传统唯心主义难以区分。二者都以各自的方式构建了一个由抽象概念和无形思想组成的领域,这些概念和思想只会模糊而非清晰地阐明具体的经验世界。此处关于“虚假唯物主义”的论述,正好可以启发我们对人工智能“幻觉”现象进行相应的分析。正如“虚假唯物主义”构建了一个扭曲的物质世界图像,人工智能也是如此,它依赖于抽象的模型和算法,产生的输出结果都会导致“幻觉”。我们之所以认为这些“幻觉”与人类的幻觉非常相似,是因为二者都源于输出结果与它所声称代表的外部世界之间的分离。就人工智能而言,这种分离源于训练数据的局限性、算法固有的偏差以及计算系统难以真正捕捉真实世界的全部复杂性。因此,萨特的存在主义框架、计算精神病学的相关假设,以及德勒兹和瓜塔里的“唯物主义精神病学”理论框架,为我们提供了一些阐释性的工具,用以分析人工智能领域产生“幻觉”的机制与相关原理。
二、人工智能“幻觉”的定义
正如我们在上文看到的,人工智能在文本生成和处理领域,可能会存在输出时人工智能所生成的文本可能是无意义、不连贯或者循环重复的内容。人工智能所生成或处理的文本,有可能不忠实于文本的来源,这种偏离理想预期的文本成本被称为“幻觉”。刘泽垣等学者将人工智能大模型通过自然语言指令而生成的任务分为开放式和非开放式,前者指的是输入内容不完整并且输出语义并没有包含在输入内容之中的任务类型,而后者指的是大模型根据输入内容来生成文本。对于这两种任务类型,人工智能大模型都有可能会产生生成内容不符合真实世界的知识或者生成内容与输入信息不一致的问题,即是人工智能“幻觉”。在深度神经网络模型中,人工智能如果是接受大量的数据或者文本输入来进行机器学习和模型训练,并在此基础上进行文本输出的话,那么在训练过程中,算法会收集大量并行数据,有可能会使用启发式规则,比如基于卷积神经网络的主题条件神经模型,可以捕捉文档中单词之间的依赖关系,从而实现文档级推理、抽象和释义。但是,这些启发式规则也有可能会给数据带来噪音,这些噪音表现为在输出中出现与输入不匹配的短语,而这些短语的生成无法通过输入源来进行解释。神经文本生成模型在捕捉到这些噪音的同时,会生成流畅但无据可循的文本,导致人工智能“幻觉”,即所生成的内容不忠实于输入源或者内容本身毫无意义。有学者将幻觉分为两类:外在幻觉与内在幻觉。外在幻觉指代的是模型所生成的表述,引入了全新的文本内容,这些内容无法从源内容中得到验证,这种幻觉的核心要义是往输出结果里面添加了无法在源内容里面得到验证的新文本信息。即便在该表述里可能有部分内容是忠实于源内容的,但是在输出的过程中,只要该模型添加了一些新的文本且这些文本无法在源内容的知识库里得到验证,那么这都会导致幻觉。内在幻觉则是错误地使用了源内容知识库里面的主语和宾语,导致二者的关系与源内容里面的信息产生矛盾,比如,文本输出显示,“张艺谋导演了《泰坦尼克号》电影”,这里面的主语是“张艺谋”,宾语是“《泰坦尼克号》电影”,谓语是“导演”,在源内容里面,《泰坦尼克号》电影的导演是美国人詹姆斯·卡梅隆,于是文本输出与源内容直接产生了矛盾,这就是“内在幻觉”,其要义是人工智能模型误用了相关信息,导致输出和输入之间产生了矛盾和错配。
在人工智能领域中,与“幻觉”相对应的词语包括“事实性”和“忠实性”。事实性指的是基于事实的某种知识或者陈述,而忠实性指的是输出文本忠实于源输入内容。〔10〕通过这样的区分,我们可以理解人工智能“幻觉”会在什么样的情况下产生,机器所生成的输出文本可能与真实世界的知识产生了矛盾。在自然语言生成的过程中,有学者归纳了“幻觉”产生的原因大致分为两种:一种是源于数据,另一种是源自训练和推理过程产生的幻觉。首先,在数据方面,造成数据“幻觉”的原因可能是“源—参照之间的差异”,即源内容和目标参照之间产生了差异,这种差异有可能是由“启发式数据收集”造成的。如果数据集里面包含了这种发散或者差异,一旦用该数据集来训练大语言模型,那么在自然语言生成的过程中就可能会出现“输出文本不忠实于源输入内容”的情形。从定义的角度来看,“启发式数据收集”指的是在收集大规模数据集时,大语言模型会启发式地选择真实表述或表格并将之匹配为源或者目标。在这个过程中,目标参考值就有可能包含一些新的信息,而这些信息无法在源内容里得到验证,由此我们得到一个不忠实于源内容的目标参考值。比如,如果我们让人工智能从一些结构化数据格式(如数据库记录、知识图谱和表格等)中读取数据并自动生成描述性的自然语言文本,那么人工智能的条件语言模型则可能会生成无条件的随机事实,这种不可控的随机性就直接导致了“事实幻觉”,影响了数据的真实性。而且,数据集中的重复信息有可能没有被过滤掉,如果用于大语言模型的预训练语料库里面包含了一些重复示例,人工智能在学习的过程中记住这些重复示例,有可能会因为其出现得高频而导致人工智能倾向按照这些重复示例来生成短语,如此一来,针对每个具体的源内容,大语言模型在文本输出的过程中就容易产生偏离了忠实性的“幻觉”问题。
在涉及数据集时,另外一个重要的考量因素就是对幻觉的容忍程度,因为大语言模型所输出的内容,也会根据任务的不同而对事实性和忠实性有不同的要求,常见的任务类型包括摘要概括、从数据到文本以及对话式交流。摘要概括即要求人工智能可以将篇幅较长的文本凝练成篇幅较短的文本,从数据到文本则是要求机器能够针对不同的源内容格式输出为文本,而对话式交流则是强调生成输出的多样性。这几种不同的任务类型,对幻觉的容忍程度也不一样。在摘要概括领域,忠实性的要求比较高,源内容是输入的文本,需要机器来进行概括和提炼,此时使用者会对人工智能的“内在幻觉”(输出误用了源内容从而导致和源内容相矛盾)容忍程度比较低,会期待输出的文本能够较高地忠实于所输入的源内容,尽管此时机器可能并不特别地对输出和输入的内容进行真实性的考察。这种忠实性是衡量人工智能是否完成了摘要概括任务的核心标准。在数据到文本的任务模式中,源内容是非语言或者文本的数据,比如图片、表格、视频等,而人工智能面临的任务是从源内容中生成描述性文本。如果我们采用端到端的方式,使用编码器—解码器架构进行人工智能训练,那么人工智能所生成的文本真实性就会程度低且覆盖范围小。此时,可能产生人工智能幻觉的地方在于人工智能所输出的参考文本可能会包含表格中没有的额外信息,或者由于人工智能在收集数据集的过程中所遇到的噪音,它会遗漏表格中的重要信息。相比之下,在对话式交流中使用者对事实性和忠实性的要求都不高。有时使用者可能会采用闲聊、主观对话或者用户输入的方式来提供一些内容,这些内容不一定能够在人类共有的历史记录或者知识库之中找到对应的事实根据。在这种情况下,使用者对人工智能产生“幻觉”的容忍度就比较高,因为对话式交流任务模式的核心是促成使用者和人工智能之间对话的进行,保证对话生成的参与度和多样性。此时人工智能很有可能就会产生各种“外在幻觉”,即输出的文本包含了许多无法在源内容里面得到验证和对应的信息。
三、人工智能“幻觉”的产生因素
人工智能“幻觉”也有可能是在人工智能训练和建模选择的过程之中产生。人工智能在训练的时候一般都会用到编码器,该编码器的作用就是将输入的文本处理成机器可以理解的内容并编码为有意义的表征。如果编码器的理解能力有缺陷,那么就会导致“幻觉”。在面对提供给机器进行预训练的数据集时,如果编码器在这些数据集之中理解有误,学习到错误的相关性,那么很大概率在文本输出的过程中,会出现幻觉,导致输出内容和源内容之间产生差异。在神经机器翻译中,很多都会采用编码器—解码器的框架。在这个二元的框架中,编码器和解码器执行不同的功能,编码器会将源内容投射到一个公共概念空间中的相关表征之中,而解码器则从这些表征中检索到相关信息,然后逐一将其解码为目标翻译内容。编码器将输入的数据、文本和内容进行编码,下一步就是将这些编码的内容传输给解码器,由解码器进行加工处理,生成最终的目标输出。如果编码器的编码有误,那么传输给解码器后,大概率解码器也会生成错误的输出内容。这样的一种“编码—解码错误联结”可能会导致在生成的内容之中事实性和忠实性都受损。即便编码的方式无误,解码所采用的算法和策略也有可能会导致幻觉,如果解码的算法和策略是提高生成和输出结果的多样性,那么就可能导致在输出结果中“幻觉”产生的可能性大大提高,所以很多时候输出结果的多样性以及解码器能够保证输出和输入之间高度匹配的真实性,这是一个两难的问题,因为如果解码的策略是增加“随机性”,那么在生成输出结果时,人工智能会增加一些不包含在源内容里面的信息,更可能生成包含幻觉的内容。
在生成输出的过程中,如果解码策略没有问题,仍然会存在一个“暴露偏差”的问题,这同样会导致“幻觉”。一般在序列到序列的模型训练中,会用到“教师强制”的“最大似然估计”训练方法,即在每个训练的时间步之内,所有的输入都来自真实样本,这些真实的样本都来自真实的历史数据而不是模型的预测。如此一来,模型就可以更快地收敛,让训练过程更加稳定,但是从训练切换到预测或者应用的过程时,模型在文本输出时不会去访问真实的历史数据或者世界知识,而更多地依赖自己的预测,按照自己先前生成的历史序列生成下一个标记样本来进行预测,但是当进行推理或者应用时,每一个时间步的输入就变成了模型自己在上一个时间步的输出,这就是二者在解码过程中在时间步上面的差异,这两个过程的不一致会导致误差累积,即前面的单元如果输入有误,那么这个错误的输入会影响下一个单元的输出,而下一个单元继续作为输入会影响下下个单元的输出,如此循环往复会导致错误累积,尤其是当目标序列变长的时候。这种差异被称为“暴露偏差”,其特点是目标序列的长度和“幻觉”出现的几率呈正相关。
除了“暴露偏差”,在参数知识方面的偏差也可能导致“幻觉”。所谓的参数知识即提供给人工智能模型进行预训练的大型语料库所具备的一些参数,这些参数作为知识被人工智能模型标注和识记,用于提高其完成下游任务的性能。这些大型语料库一般覆盖范围很广,具有通用性的特征,而人工智能模型在使用大型语料库进行预训练时,可能会考虑参数知识,而不是所提供的输入内容。人工智能的侧重点并不在于源信息,而在于如何运用从源信息里面提炼出来的参数知识来提高自己完成下游任务的性能,这样的一种偏好会导致人工智能在输出内容中出现多余信息,这些信息和源内容不一致或者无法在源内容里面得到验证。这一点在人工智能执行图像描述的任务时表现得比较明显,现有的度量标准无法完全捕捉描述与图像的相关性,人工智能在参数知识方面的有限性导致一系列图像描述“幻觉”的出现,比如出现了不存在于图像之中的物体,或者明显遗漏了图像之中的显著物体。这种“幻觉”的产生主要因为人工智能对视觉图像进行了错误的分类,其根源可以追溯到参数上面,即人工智能所依赖的参数知识比较有限,形成了一种“语言先验”,人工智能可能只记住哪些词更有可能进行搭配或者有更大概率以前后顺序出现在同一个地方。如此一来,人工智能对图像的判定就不是以图像内容为基准的,而是以其所接受训练的大语言模型为基准的,依靠在训练过程中形成的“语言先验”,来对图像进行判定和描述,这很容易导致“幻觉”的产生,因为一旦测试的内容或者排列方式发生变化就将导致人工智能图像描述的泛化能力下降。
四、人工智能“幻觉”在实际应用中的伦理风险
人工智能的“幻觉”问题,在实际应用中可能产生一些严重的后果。如果将人工智能应用于医疗领域,那么出现人工智能“幻觉”将可能对医疗产生不利影响。许多临床医疗指南和规范会包含各种数字和指标,如日期、数量、标量等。无论是对医疗工作者还是病人而言,这些数字和指标的准确性都毋庸置疑。在对文本中的数字进行处理时,人工智能在具体数字上的“幻觉”可能是一个被严重低估的问题。
2023年,医学科学杂志Cureus曾发布了一则图灵测试征稿启事,征集医疗人员在ChatGPT协助下撰写病例报告的研究论文,有研究人员报告了通过ChatGPT撰写两个医疗报告的示例。一个示例是高胱氨酸尿症相关骨质疏松症,另一个示例是晚发型庞贝氏症(LOPD)。在针对前一个病例的病理生理机制报告撰写过程中,尽管ChatGPT提供了一些准确的信息,但是其回答也包含了一些无法验证的信息,当研究人员要求ChatGPT对这些信息进行解释、核查并提供参考文献时,ChatGPT提供了五篇2000年左右的参考文献。这些参考文献看上去有模有样,而且还有PubMed ID(PMID),看上去真实程度很高。但是研究人员在PubMed的数据库里进行核查时发现,这些参考文献全都子虚乌有,都是ChatGPT杜撰出来的,而那些PubMed ID都是张冠李戴,全是其他论文的PubMed ID,只不过现在被ChatGPT拿过来放在了这些杜撰出来的参考文献上。当研究人员要求ChatGPT提供最近十年针对这一病例的最新参考文献时,ChatGPT很快就提供了一个列表,但是和上一个参考文献的列表相同,里面所有的参考文献信息都是杜撰出来的,PubMed ID也是从别的文章里面拷贝过来。而针对另一个LOPD病例的报告,研究人员要求ChatGPT写一篇关于LOPD中肝脏受累的短文,实际上在临床实践中,肝脏受累很少发生在LOPD中,因此研究人员进行这个提问的目的是观测ChatGPT是否能够根据现有的临床实践做出准确的回答。但让他们大跌眼镜的是,ChatGPT自信满满地生成了一篇关于LOPD患者肝脏受累的文章,而事实上,在医学界还没有相关领域的报告,因此并没有已发表的科学文献证明在LOPD和肝脏受累之间存在联系。因此ChatGPT撰写的这一篇关于LOPD患者肝脏受累的文字是既无法在世界知识中获得验证又无法在源内容里面得到验证的“幻觉”报告。
实际上,随着人工智能在医疗领域里面的部署,“幻觉”也逐渐成为人工智能应用中不得不直面的一个挑战。各国政府都意识到人工智能为医疗领域带来了空前机遇,因此不少国家的医药监管部门都对人工智能进入医疗领域提供了行政支持,美国食品和药物管理局(FDA)也加速批准了不少人工智能产品,尤其是涉及机器学习的产品。同时,使用特定的人工智能系统进行医学影像诊断的费用也进入了一些国家的医保范围,允许这些费用通过医疗保险进行报销和结算,这样促进了人工智能在临床环境中的应用。但是目前针对人工智能在医疗领域的应用,由于可以用于机器学习的预训练大型数据集有限,或因医疗设备所产生的大尺寸图像像素庞大,导致一般的人工智能神经网络无法容纳。一般而言,人工智能神经网络在处理医疗图像时,该网络所需的内存会随着模型的复杂性和输入像素的数量而相应地有所增加,许多图像可能会超出目前人工智能神经网络的内存。即便我们更新了人工智能神经网络的内存和设备,使之能够容纳大尺寸的医疗图像,但是另外一个影响医疗数据训练的因素就是监督学习的缺位和不足。与其他预训练的大型语料库不同,医疗数据集讲究临床数据的准确性,因此就需要进行强化的监督学习,通常的做法就是请医学专家为这些监督学习手动提供标签。这个方法的弊端在于,如果数据集规模庞大或者医学专家时间有限或者聘请的人员医学专业知识不足,就很有可能会对这些标签产生影响。为了提高预训练的效率,还可能出现的一个做法就是通过外包或者众包,让非专业人员来手动打上标签。如此一来,标签的准确性就降低了。在这个众包的过程中,还可能会产生一系列与隐私相关的问题。即便我们通过其他人工智能模型应用来提供监督学习的标签,这些标签仍然有可能存在噪音的风险。这些数据集所带来的局限都可能在输出结果时导致“幻觉”问题。研究人员报告了关于“单源偏差”的担心,当数据集都是由某个单一系统生成时,假如所有的医疗图像全部来自某一台固定设置的医疗设备,那么模型在分析该数据集的内容时很容易检测到与输入内容相关的背景参数知识。如果人工智能神经网络将这些参数知识设定为通用值或者默认值,那么在面对其他来源的数据集时,该人工智能的机器学习的性能表现就会受到影响,在输出结果上就可能将预训练时所采用的单源参数知识泛化到其他来源的数据之上,从而形成“幻觉”。
这一伦理问题也可以放在德勒兹和瓜塔里的“唯物主义精神病学”理论框架之中进行讨论。德勒兹和瓜塔里强调,“唯物主义精神病学”必须看到在精神疾病背后的社会生产和欲望生产机制。这里对机制的强调也同样启发我们去探究人工智能“幻觉”的生成机制。在任何精神疾病的分析之中,我们都需要考虑社会生产和欲望生产机制的重要性。这种对机制的强调对塑造个人和集体主观性的各种力量的动态相互作用,为理解人工智能“幻觉”提供了宝贵的框架。精神疾病不仅仅是个人病理的产物,而且是更广泛的社会和欲望力量的表现,人工智能“幻觉”也可以被视为其产生的特定条件下的症状。用于训练人工智能模型的数据集、控制其运行的算法以及设计这些模型的目的都促使这些“幻觉”的产生。从这个意义上讲,人工智能“幻觉”可以被看作偏见、局限性,甚至潜意识欲望的体现,而这些偏见、局限性以及潜意识欲望都植根于产生人工智能的技术和社会系统中。这种观点挑战了将人工智能“幻觉”视为纯粹技术问题,仅通过改进算法或更广泛的训练数据即可修复的错误的普遍倾向。相反,它促使我们考虑影响人工智能技术发展和部署的更广泛的社会、文化甚至政治力量。通过关注这些生产机制,我们可以更深入地理解人工智能“幻觉”的本质及其对日益技术化的世界的影响。这一生成机制的底层逻辑体现了德勒兹和瓜塔里所言的“虚假唯物主义”。从认识论的角度来看,这一生成机制将概念系统置于物质现实之上,在这里,概念被伪装成物质的“本质属性”,从而导致抽象概念形成一个闭环的“自我指涉”,成为一个脱离现实的认识论陷阱。人工智能深度学习系统的工作原理,就是通过将海量训练数据抽象为高维空间中的统计分布,运用不同的算法来构建一个与现实世界同构的概念模型。然而,这种建模过程本质上是对物质现实的符号化暴力切割——系统将连续的感官经验离散为特征向量,将动态的物质交互简化为参数更新,最终生成的知识体系虽然具有形式上的自洽性,却始终与真实世界的物质基底保持着结构性断裂。人工智能的“幻觉”现象正是这种认识论断裂的症候性显现。当系统将文本生成视为潜在空间中的概率采样,或将视觉创作理解为风格迁移的矩阵运算时,其输出结果与物质现实的对应关系已然被算法“黑箱”彻底中介化。这种中介化过程与人类认知的幻觉机制形成一种相互“映射”的镜像关系:正如人类意识将神经电信号建构为连贯的知觉体验,人工智能系统也将权重参数转化为看似合理的语义输出。二者的相似性不在于表象层面的输出偏差,而在于共享符号系统与物质基底的根本性分离。训练数据的有限性、算法架构的归纳偏好、计算资源的物理约束,这些要素共同构成了人工智能系统的先验框架,决定着其认知视域的可能性边界。同样地,强调公平和正义的罗尔斯视角促使我们思考人工智能“幻觉”的伦理意义。如果人工智能系统被部署在医疗保健、刑事司法和教育等领域,其输出结果可能会对个人和整个社会产生深远影响,那么我们必须解决这些系统可能带来的延续甚至加剧现有不平等的问题。罗尔斯主义方法要求我们优先考虑最弱势群体的需求,并确保人工智能技术的开发和部署能够促进所有人的正义和公平。通过关注影响人工智能技术发展和部署的更广泛的社会、文化和政治力量,我们可以超越对这一现象的纯技术理解,研究其伦理和社会影响。这反过来又使我们能够利用人工智能的变革潜力,同时降低其风险,并确保其利益能够由社会所有成员公平分享。
随着生成式人工智能得到越来越广泛的应用,人工智能所引发的伦理问题引起了研究人员的广泛兴趣。本文依据萨特的存在主义框架、计算精神病学的相关存在主义假设,以及德勒兹和瓜塔里的“唯物主义精神病学”论述,从输入与输出之间的映射关系出发,集中讨论了人工智能“幻觉”的产生因素及其在实际应用中,尤其是在医疗领域产生的伦理风险。对人工智能的伦理风险的关注是希望我们在开发和应用人工智能,特别是生成式通用人工智能的相关产品时,可以让人工智能沿着符合人类价值观和增进人类社会福祉的轨道前进。
原文刊载于《社会科学辑刊》2025年第2期(第81-91页),感谢微信公众号“社会科学辑刊”授权转载。