数据库 频道

大语言模型LLM如何与人类共同做出战略决策?

在过去的一年里,大语言模型(LLM)风靡全球。2022 年底,OpenAI 的 ChatGPT 首次向公众展示了大语言模型的革命性能力。

突然间,我们看到那些对 LLM 几乎一无所知的人使用 ChatGPT 完成各种任务。“像我 10 岁时那样给我解释一下超新星”这样的询问,可以把一个复杂的概念描述得更清楚。用户还可以使用 ChatGPT 撰写从文章到诗歌的所有内容,有时在要求特定风格和形式的情况下,还会产生令人难以置信的滑稽效果。关于情人节的打油诗?没问题。关于星球大战的十四行诗?没问题。在更实用的领域,我们看到 ChatGPT 被用于创建和调试代码、翻译语言、编写电子邮件等。

无论是工作还是娱乐,用户现在都有了更多的选择。OpenAI 发布 ChatGPT 后不久,其他竞争对手的 LLM 也纷纷亮相。谷歌发布了Bard,而 Meta 则在授权下发布了 LLaMA,允许学术界研究、调整和扩展 LLM 的内部机制。从那时起,科技行业出现了一股明显的热潮,大大小小的公司要么在开发自己的 LLM,要么在尝试如何利用第三方 LLM 的功能为客户创造价值。

有鉴于此,企业应审慎考虑如何以负责任以及合乎道德的方式将 LLM 整合到业务流程中。各组织应首先了解LLM带来的风险,以及如何管理和降低这些风险。

了解 LLM 的风险

在过去的几个月里,许多使用LLM的用户都发现,LLM经常会出现几种失败模式。

首先,LLM 经常会幻觉出一些不真实的世界事实。例如,当一位记者问 ChatGPT“《纽约时报》何时首次报道了‘人工智能’?时,得到的回答是“1956 年 7 月 10 日,在一篇题为《科学家预测,机器将具备学习和解决问题的能力》的文章中,报道了达特茅斯学院的一次会议”。

正如《泰晤士报》所指出的,“1956 年的会议是真实的,而这篇文章不真实”。之所以会出现这样的错误,是因为当你向 LLM 提问时,它可以根据接受过训练的数据编造出一个听起来似是而非的答案。这些幻觉往往蕴含在足够多的信息中,有时甚至是正确的事实,因此它们能欺骗我们的次数比我们愿意承认的还要多。

其次,查询结果可能反映了 LLM 训练数据中的偏差。这是因为基于历史数据的模型会受到最初创建这些数据的人的偏见的影响。研究表明,LLM 可能会在其训练数据中出现的短语之间建立联系,这些短语反映了一些刻板印象,例如哪些职业或情感是“男性化”或“女性化”的。

此外,偏见不仅会在LLM和人工智能过程中延续,有时还会被放大。CNBC 报道称,芝加哥的历史数据意味着,基于这些数据的人工智能算法放大了 “红线 ”的歧视过程,自动拒绝了非裔美国人的贷款申请。

第三,LLM在应用逻辑思维和处理数字时经常遇到困难。虽然简单的数学问题通常都能正确解决,但解决问题所需的推理越复杂,LLM得出错误答案的风险就越大。

正如谷歌的一篇博文所指出的,典型的LLM可以被认为是运用了系统 1 思维,即“快速、直觉和毫不费力”的思维,但却缺乏利用系统 2 思维的能力,即“缓慢、深思熟虑和努力”的思维。系统 2 思维是解决许多数学问题所需的逐步推理的关键组成部分。值得称赞的是,谷歌在博文中概述了他们正在开发的一种新方法,以增强 LLM、Bard 的系统2思维能力。

在上述每一种情况下,LLM都有可能对问题做出自信、明确、文笔优美的回答。这也许是 LLM 最危险的地方:答案总是要提供的,即使它是虚构的、有偏见的或不正确的。

这些失效模式不仅会影响以LLM为基础的人工智能模型的准确性(例如,一篇文章的摘要充斥着虚假引文或逻辑混乱,是没有用的!),而且还会产生道德影响。最终,如果您的人工智能模型输出不准确,您的客户(以及监管机构)将要求您的企业承担责任。

防范 LLM 的缺陷

当然,开发 LLM 的人工智能工程师正在努力减少这些失效模式的发生,并安装防护栏。事实上,GPT-4 在减少这些失效模式的发生方面取得的进展非常显著。不过,许多企业对在另一家公司托管的模型之上构建人工智能解决方案持谨慎态度,这是有充分理由的。

公司理所当然不愿意让自己的专有数据离开自己的 IT 基础设施,尤其是当这些数据包含客户的敏感信息时。解决安全问题的办法可能是构建内部 LLM,但这需要投入大量的时间和资源。

此外,如果不拥有 LLM,用户就只能任由第三方开发人员摆布。我们无法保证第三方不会在几乎没有任何警告的情况下更新其 LLM 模型,从而引入上述故障模式的新实例;事实上,在生产环境中,我们需要严格控制模型更新的时间,并且需要时间来评估任何变更可能产生的下游影响。

最后,根据不同的使用情况,可能还需要考虑支持客户需求的可扩展性、网络延迟和成本等问题。

基于上述原因,许多企业在设计人工智能解决方案时,并不依赖于特定的 LLM。理想情况下,LLM 可被视为即插即用,这样企业就可以根据业务需求,在不同的第三方供应商之间切换,或使用自己内部开发的 LLM。

因此,任何认真考虑将 LLM 集成到业务流程中的人都应该制定一个计划,有条不紊地描述行为模式,特别是故障模式的准确性和实例,以便就使用哪种 LLM 以及是否切换到另一种 LLM 做出明智的决定。

鉴定和验证 LLM

表征基于 LLM 的人工智能解决方案行为模式的一种方法是使用其他形式的人工智能来分析 LLM 的输出。智能探索(Intelligent Exploration)是一种数据探索方法,其基础是使用与多维可视化紧密结合的人工智能例程来发现洞察力并清晰地加以说明。让我们来考虑一下智能探索可以帮助我们缓解 LLM 几种失败模式的一些方法。

例如,假设我们想建立一个网络应用程序,让客户向 LLM 提出一些关于在另一个城市旅游的问题,当然,我们不希望 LLM 由于幻觉而建议客户参观博物馆或其他不存在的景点(例如,如果问题涉及一个虚构的城市)。在负责任地开发应用程序时,我们可能会决定对查询中出现的特定词语是否会增加 LLM 产生幻觉的可能性(而不是提醒用户该城市并不存在)进行定性。由智能探索驱动的一种方法可以是:

  • 开发一组测试查询,其中一些涉及虚构的城市,另一些涉及真实的城市;

  • 训练一个监督学习模型(如随机森林模型),以预测 LLM 是否会在给定提示中出现的单词下产生幻觉;

  • 找出预测能力最强的三个词(根据训练好的模型);

  • 创建一个多维图,其中数据点的 X、Y 和 Z 维度与(查询中)预测能力最强的三个单词的计数相对应,每个点的颜色表示该查询是否触发了 LLM 产生幻觉。

这种人工智能驱动的可视化方法可以帮助快速识别特定的词语组合,这些往往会触发 LLM 产生幻觉或引导它远离幻觉。

再举一个例子,假设我们想使用 LLM 根据一份总结贷款申请人的文件来决定何时批准住房贷款,而我们担心 LLM 在建议发放贷款时可能会出现不适当的偏差。我们可以使用智能探索(Intelligent Exploration)功能,通过以下过程来研究这种可能的偏差:

  • 创建一个网络图,图中的每个节点都是一份贷款申请文件,两份文件之间的联系强度以这两份文件的关联度为基础(例如,两份文件中共同出现的单词或短语的数量);

  • 运行网络社区检测方法(如卢万算法),将网络分割成互不相连的社区;

  • 进行统计测试,以确定哪些社区(如果有的话)的被拒贷款申请比例与整个人群的被拒贷款申请比例存在显著差异;

  • 读取标记社区中的文件子集,以确定 LLM 是否以不正当理由拒绝该社区中的申请人。或者,如果贷款申请文件中增加了其他特征,如收入、邮政编码、民族、种族或性别,那么您可以使用进一步的统计测试来确定被标记的社区是否与特定特征值有不成比例的关联。

值得注意的是,可视化网络图及其社区可以显示哪些社区彼此密切相关,从而有助于推动进一步的分析。

这两个例子说明了传统的人工智能程序(如随机森林或卢万算法)如何与多维可视化功能相结合,帮助识别和研究 LLM 的行为模式和偏差。此外,还可以定期运行这些流程,以了解第三方 LLM 的行为和偏差如何随着时间的推移而发生变化,或者比较您可能考虑改用的另一种 LLM 与您现在使用的 LLM 相比有何不同。

如果使用得当,LLM 可以带来巨大的好处,但也可能带来巨大的风险。这就需要企业想方设法,比如开发和维护一套以智能探索为基础的分析例程,让他们能够自信地利用 LLM,以负责任、知情和合乎道德的方式解决业务问题。

作者 Sagar Indurkhya 博士是 Virtualitics 公司 NLP 小组的负责人。

0
相关文章