首頁 » 人工智能幻觉:示例指南

人工智能幻觉:示例指南

人工智能幻觉 虽然大型语言模型 (LLM) 产生了重大的积极影响并具有巨大的潜力,但它们并非没有缺陷。有时,它们会自信地产生事实上不正确、无意义甚至有害的输出——这种现象被称为AI 幻觉。

在这篇博文中,我将清楚地解释什么是人工智能幻觉,强调值得注意的例子,探讨其根本原因,并讨论缓解它们的潜在策略。

什么是人工智能幻觉?

人工智能幻觉是指人工智能模型产生的输出偏离现实或缺乏事实依据。

简单来说,幻觉是指模型给出错误答案、编造故事或产生不合理输出的情况。幻觉的严重程度各不相同,从轻微的事实错误到完全捏造的说法。

尽管幻觉通常与基于文本的 LLM 有关,但它们也出人工智能幻觉现在图像和视频 AI 生成器中,导致视觉上不合理或上下文不准确的输出。然而,在本文中,我们将重点介绍基于文本的 LLM 中的 AI 幻觉,因为它们提供了清晰且可关联的例子来解释这些概念。

人工智能伦理
通过关注关键原则、公平性、减少偏见和建立对人工智能设计的信任来探索人工智能伦理。

人工智能幻觉的类型

我们可以将幻觉大致分为三种类型:

事实错误

虚构内容
无意义的输出
幻觉。类型

这些类别并不相互排斥。单一幻觉通常可以与多种类型重叠,例如虚构的故事也包含事实错误和无意义的元素。

事实错误
当 AI 模型输出错误信息时,就会 墨西哥数据 出现事实人工智能幻觉错误,例如历史错误或科学错误。一个显著的例子是数学,即使是先进的模型也难以保持一致的准确性。

旧模型经常在简单的数学问题上遇到困难,而新模型尽管有所改进,但在处理更复杂的数学任务时往往会遇到问题——尤其是那些涉及不常见的数字或训练数据中没有很好体现的场景的任务。

让我们来研究一个更简单的数学问题的例子,作为 OpenAI 模型如何随着时间的推移而改进的基准。

GPT-4 中 AI 对数学问题产生幻觉的示例

如果我们询问 GPT-4 3,821 是否是质数,它会错误地回答不是质数,并声称它可以被 53 和 72 整除。如果我们随后询问 53 和 72 的乘积,该模型会正确地计算出结果为 3,816,但未能意识到这与它的初始答案相矛盾。只有在后续问题暗示两者之间存在联系后,模型才会给出正确答案。

GPT-4o也从错误的答案开始(见下文),声称 3,821 是 19 和 201 的乘积。然而,与其前身不同的是,当我们要求 19 乘以 201 的结果时,它会立即意识到自己的错误。

GPT-4O 中 AI 对数学问题产生幻觉的示例

最后, o1-mini 模型采用了更有条理的方法,并立即给出正确答案。

GPT-4O 中 AI 对数学问题产生幻觉的示例

虚构内容

当 AI 模型无法正确回答时,它有时会编 经验丰富的外交官认为可能需要更长时间 造一个完全虚构的故事来支持其错误答案。主题越晦涩或越不为人熟知,模型编造内容的可能性就越高。

另一个挑战,特别是对于较旧的模型来说,是在结合两个事实时出现的——即使模型“知道”这两个事实,如下一个例子所示。

如果我们问是否有一位美国参议员曾服务于明尼苏达州,并且其母校是普林斯顿大学,正确的答案是否定的。但由于 GPT-4 似乎缺乏足够的信息来回答整个问题,它的输出包括部分问题的答案——将 Walter F. Mondale 确定为代表明尼苏达州的参议员——并错误地认为这对另一部分也有效。然而,当被问及 Walter F. Mondale 是否就读于普林斯顿大学时,该模型认识到了自己的错误。

GPT-4 中的 AI 幻觉(虚构内容)示例

无意义的输出

人工智能生成的输出有时看起来很完美、语法完美,但却缺乏真正的含义或连贯性,尤其是当用户的提示包含矛盾的信息时。

之所以会出现这种情况,是因为语言 最後的資料庫 型的设计初衷是根据训练数据中的模式来预测和排列单词,而不是真正理解它们产生的内容。因此,输出结果可能读起来很流畅,听起来很有说服力,但却无法传达合乎逻辑或有意义的想法,最终毫无意义。

人工智能幻觉的原因

四个关键因素常常导致幻觉:

训练数据不足或有偏差
过度拟合
错误的模型架构
生成方法
幻觉的原因

训练数据不足或有偏差

训练数据不足或存在偏差是导致 AI 出现幻觉人工智能幻觉的根本原因,因为 LLM 等模型依赖大量数据集来学习模式并生成输出。当训练数据缺乏有关特定主题的全面或准确信息时,模型很难产生可靠的结果,通常会用不正确或虚构的内容填补空白。

这一问题在小众领域尤为明显,例如高度专业化的科学领域,因为这些领域可用的高质量数据量有限。如果数据集仅包含单一来源或对某个主题的模糊覆盖,模型可能会过度依赖该来源,记住其内容而没有获得更广泛的理解。这通常会导致过度拟合,并最终导致幻觉。

无论是训练数据本身,还是在收集和标记数据的过程中,偏见都会通过扭曲模型对世界的理解而放大问题。如果数据集不平衡(过度代表某些观点或完全忽略其他观点),人工智能就会在其输出中反映这些偏见。例如,主要来自当代媒体的数据集可能会对历史事件产生不准确或过于简单的解释。

过度拟合

过度拟合的模型很难适应,通常会产生过于僵化或与上下文无关的输出。当 AI 模型过于彻底地学习其训练数据,以至于记忆而不是泛化时,就会发生过度拟合。虽然这似乎有利于提高准确性,但当模型遇到新的或看不见的数据时,就会产生重大问题。

鉴于提示的灵活性和经常含糊不清的性质,这一点尤其成问题,因为用户可能会以无数种方式提出问题或请求。过度拟合的模型缺乏解释这些变化的适应性,增加了产生不相关或不正确的响应的可能性。

例如,如果模型记住了训练数据中的特定措辞,即使该措辞与输入不一致,它也可能会重复该措辞,从而导致自信地产生不正确或误导性的输出。正如我们已经介绍过的,这种情况通常发生在小众或专业主题中,由于缺乏高质量的训练数据,导致过度拟合。

错误的模型架构

语言具有丰富的语境、习语和文化差异,因此需要一个能够理解更多内容的模型,而不仅仅是表面模式。当架构缺乏深度或容量时,它往往无法掌握这些细微之处,导致输出过于简单或过于笼统。这样的模型可能会误解单词或短语在特定语境中的含义,从而导致错误的解释或有事实缺陷的回应。

再次强调,这种局限性在需要深入了解专业领域的任务中尤其明显,因为缺乏复杂性会阻碍模型准确推理的能力。因此,开发过程中错误的模型架构可能会严重导致人工智能出现幻觉。

生成方法

用于生成输出的方法,例如光束搜索或采样,也可能显著导致人工智能幻觉。

以定向搜索为例,其目的是优化生成文本的流畅性和连贯性,但通常以牺牲准确性为代价。由于它优先考虑最有可能一起出现的单词序列,因此它可能会导致流畅但事实上不正确的陈述。这对于需要精确度的任务(例如回答事实问题或总结技术信息)尤其成问题。

采样方法将随机性引入文本生成过程,也可能是 AI 幻觉的重要来源。通过基于概率分布选择单词,采样产生的输出比定向搜索等确定性方法更加多样化和富有创意,但也可能导致无意义或虚构的内容。

生成式人工智能的流畅性、创造性和可靠性之间的平衡非常脆弱。虽然定向搜索可以保证流畅性,采样可以实现不同的响应,但它们也增加了输出结果包含各种令人信服的幻觉的风险。特别是在精确性和事实正确性至关重要的场景中,例如医学或法人工智能幻觉律背景,有必要建立机制来验证或根据可靠来源对输出结果进行验证,以确保正确完成任务。

人工智能幻觉的影响

人工智能幻觉可能会产生深远的影响,尤其是当生成式人工智能工具迅速应用于商业、学术界和日常生活的许多领域时。它们的后果在高风险领域尤其令人担忧,因为不准确或虚假的信息可能会破坏信任、导致错误决策或造成重大伤害。可能的影响包括:

经济和声誉成本
传播错误信息
对生成式人工智能的信任度下降
人工智能幻觉的后果

安全风险
决策的后果可能非常严重,尤其是当用户依赖人工智能生成的输出而不核实其准确性时。在金融、医学或法律等领域,即使是一个小错误或捏造的细节也可能导致产生深远影响的错误选择。例如,人工智能生成的包含错误信息的医疗诊断可能会延误适当的治疗。使用伪造数据进行的财务分析可能会导致代价高昂的错误。

另一个例子是,人工智能幻觉的风险在高风险应用中被放大,这可以从谷歌聊天机器人 Bard(现为 Gemini)的早期阶段看出。它因经常在关键话题上提供危险建议(例如如何降落飞机或潜水)而受到内部批评。据彭博社报道,尽管内部安全团队已将该系统标记为尚未准备好供公众使用,但该公司还是推出了它。

经济和声誉成本

除了直接风险之外,人工智能幻觉还会给企业带来巨大的经济和声誉损失。错误的输出会浪费资源,无论是花时间验证错误还是根据有缺陷的见解采取行动。发布不可靠人工智能工具的公司可能会面临声誉受损、法律责任和财务损失的风险,正如谷歌在Bard 在宣传视频中分享不准确信息后市值暴跌 1000 亿美元所见。

传播错误信息
人工智能幻觉还可能助长错误信息和虚假信息的传播,尤其是通过社交媒体平台。当生成式人工智能产生的虚假信息因其流畅性而看似可信时,它会被那些认为它是准确的用户迅速放大。由于信息可以塑造舆论,甚至煽动伤害,这些工具的开发者和用户必须理解并接受他们的责任,以防止虚假信息无意传播。

信任度下降
最后,信任的侵蚀可能是上述所有影响的结果。当人们遇到不正确、无意义或误导性的输出时,他们开始质疑这些系统的可靠性,尤其是在准人工智能幻觉确信息至关重要的领域。一些突出的错误可能会损害人工智能技术的声誉,并阻碍其采用和接受。

让用户了解这些工具的局限性是必要的,但也很复杂,因为它需要在人工智能缺陷的透明度和不降低人们对其潜力的信心之间取得平衡。

 

返回頂端