20分钟带你了解20个最重要的AI概念-数据库专区

20分钟带你了解20个最重要的AI概念

作者：数据驱动智能晓晓编辑：任朝阳 2026-04-13 09:50 IT168网站原创

　　如果你曾经尝试学习过人工智能，你可能至少有过一次这种感觉……

　　“这到底是怎么回事？”

　　这么多术语，这么多工具，而网上每个人都说得好像这是理所当然的事。

　　学习人工智能可能会让人感到不知所措。

　　尤其是如果你不是直接从事相关工作，那感觉就像在学习一门全新的语言。

　　但我意识到了这一点……

　　人工智能其实并没有那么复杂。

　　一旦你理解了基本原理，特别是大型语言模型（LLM）的工作原理以及现代人工智能工具的构建方式，一切就都变得有意义了。

　　在这篇文章中，我将用最简单的方式来讲解20个最重要的AI概念。

　　没有晦涩难懂的术语，没有故弄玄虚，只有清晰明了的解释和直观的例子，正是我希望当初有人能这样解释给我听的。

　　现在就开始吧✌️

　　基础知识

　　1. 神经网络

　　神经网络的核心是一个由称为神经元的小单元组成的、相互连接的层组成的系统。

　　把它想象成一条管道。

　　数据从输入层进入，经过多个隐藏层，最终通过输出层输出预测结果。

　　但里面究竟发生了什么？

　　理解这一点的一个简单方法是想象逐步改进的过程。

　　相同的输入被反复处理，每一层处理后，模型对输入的理解都会加深一些。

　　例如，在图像模型中：

　　第一层可能检测到一些简单的事物，例如边缘或纹理。
　　中间层开始识别形状或图案。
　　更深层的分析可以识别实际物体。

　　这就像是从像素→形状→意义的过程。

　　现在，重点来了……

　　这些神经元之间的每一个连接都有一个叫做权重的东西。

　　你可以把权重想象成微小的“重要性分数”，它决定了一个神经元应该对另一个神经元产生多大的影响。

　　如何训练神经网络呢？

　　基本上，这个过程就是不断调整这些权重，直到模型开始给出准确的结果。

　　接下来事情就变得疯狂起来了。

　　现代人工智能模型，尤其是大型语言模型，不仅仅只有几个权重。

　　他们拥有数十亿个这样的个体。

　　大家齐心协力，将原始输入转化为真正有意义的东西。

从零开始训练神经网络听起来很酷……

　　直到你意识到它实际上有多么昂贵。

　　这需要海量数据、强大的计算能力和大量时间。

　　这就是迁移学习发挥作用的地方，说实话，它改变了一切。与其从零开始，不如采用一个已经在广泛任务上训练过的模型，并将其调整以适应更具体的任务。

　　所以你不是从零开始构建……

　　你是在已经运行良好的东西之上进行构建。

　　理解这一点的最简单方法是技能重用。

　　想象一下你已经会骑自行车了。

　　现在学骑摩托车是不是容易多了？

　　因为你不是从零开始，你只是在运用你已经知道的东西。

　　迁移学习的原理也一样。

　　预训练模型已经学习了数据中的一般模式，因此当你针对你的用例对其进行微调时，它学习速度更快，所需精力也更少。

　　而这才是重点……

　　这就是目前大多数现代人工智能的实际工作方式。

　　大型公司只需训练一次庞大的基础模型，然后像我们这样的开发人员就可以针对特定任务对其进行调整。

　　这就是为什么你无需数十亿个数据点或庞大的计算能力就能构建强大的 AI 应用。

　　现代 Transformer Stack

　　3. 分词

　　模型在理解文本之前，必须将其分解成更小的片段。这个过程称为分词。

　　该模型并非像我们阅读句子那样阅读句子，而是使用称为“词元”的微小单元。这些词元就像模型内部的语言“字母表”。

　　但一个词素并不总是完整的单词。

　　有时它是一个完整的单词，有时它只是单词的一部分。例如，“playing”这个词可能会被拆分成“play”和“ing”这样的小部分。另一方面，像“dog”这样简短常用的单词通常会保持完整。

　　看看这个

　　你可能会想……为什么不直接使用完整的单词呢？

　　一开始可能会感觉有点奇怪，但这是有原因的。

　　语言极其复杂且不断演变。新词层出不穷，人们会拼写错误，混合使用不同的语言，或者创造出自己的变体。如果一个模型试图存储所有可能的词汇，词汇量将会变得极其庞大。

　　分词通过维护一组固定的构建模块来解决这个问题。模型无需记忆每个单词，而是学习常见的模式和可重用的片段。因此，即使遇到从未见过的单词，它也能通过将其分解成熟悉的片段来理解它。

　　这就是为什么人工智能阅读文本的方式与人类不同的原因。

　　它读取词元，并逐步从这些词元构建意义。

　　4. 嵌入

　　文本被分解成词元后，下一步就是将这些词元转换成模型实际可以处理的内容。

　　这就需要用到嵌入技术了。

　　每个词元都会被转换成一个向量，本质上是一个代表其含义的数字列表。该模型并不直接处理单词，而是处理这些数值表示。

　　一个有帮助的思考方式是将其视为一种地图。

　　每个词在高维空间中都有一个位置。相似的词会彼此靠近，而差异很大的词则会相距甚远。例如，“医生”和“护士”会很接近，而“医生”和“山”则会相距甚远。

　　即使这个空间拥有成百上千个维度，它仍然能够捕捉到有意义的关联。某些词语之间的差异遵循着一致的模式。例如，“演员”和“女演员”之间的关系类似于“王子”和“公主”之间的关系。

　　有趣的是，这个模型理解语言的方式与我们不同。它不以定义或规则为基础进行思考。相反，它通过距离和方向来理解意义，将词语组织在一个空间中，使关系变成几何形状。

　　5. 注意力

　　接下来事情就变得真正有趣了。

　　词义并非固定不变，而是取决于语境。

　　以“苹果”这个简单的词为例。在一个句子中，它可以指一种水果；在另一个句子中，它可以指一家公司。

　　那么模型是如何确定正确含义的呢？

　　单靠词嵌入是不够的，因为它为每个词元都赋予了一个固定的表示形式。它无法完整地捕捉词义如何随上下文变化而变化。

　　这就需要集中注意力了。

　　注意力机制允许每个词观察句子中的其他所有词，并判断哪些词真正重要。模型不会平等对待所有词，而是学习关注最相关的词。

　　所以，如果句子是“她购买了苹果公司的股票”，该模型会更加关注“股票”和“购买”之类的词语，帮助它理解“苹果”是一家公司，而不是一种水果。

　　这个模型的强大之处在于它不再逐字阅读了。

　　它会同时查看整个句子，并动态地决定关注点在哪里。

　　正是这种对理念的关注，真正开启了现代人工智能时代。

　　在此之前，模型是按顺序从左到右处理文本的，常常忽略长程关系。注意力机制改变了这一点，它让模型能够看到完整的图像，理解所有元素之间的联系。

　　6. Transformer

　　我们目前讨论的所有要素——标记、嵌入、注意力——都汇聚到了一起。

　　那个地方是Transformer。

　　它是当今几乎所有现代人工智能系统赖以运转的架构。

　　Transformer 模型最早在 2017 年发表的一篇名为《注意力就是你所需要的一切》的论文中提出。其理念出奇地简单：不再逐字处理文本，而是将注意力作为核心机制，让模型同时处理所有内容。

　　这一转变改变了一切。

　　Transformer 是由多层注意力机制和简单的处理模块堆叠而成。信息在这些层级间传递时，会逐步得到提炼和完善。

　　在早期层级，该模型从理解基本结构开始——例如语法和句子模式。

　　随着层级的深入，它开始捕捉词语和概念之间的联系。在更高层级，它能够处理更复杂的推理和关联。

　　这不是魔法，只是反复改进而已。

　　Transformer最大的优势之一在于其数据处理方式。

　　老款模型必须按顺序逐字读取文本。这使得它们速度慢，而且能够处理的上下文信息量也有限。

　　Transformer没有这个问题。它们并行处理所有令牌，这使得它们速度更快，并且可以使用 GPU 等现代硬件扩展到大规模。

　　这就是为什么像 GPT、Claude、Gemini 和 Llama 这样的模型都依赖于这种架构的原因。

　　如果缩小画面，整个流程看起来是这样的：

　　文本被分解成词元（token）。

　　词元被转换成向量。

　　Transformer层利用注意力机制来理解各个部分之间的联系。

　　这种简单的流程正是你今天使用的绝大多数人工智能的驱动力。

　　现在我们了解了大型语言模型

　　7. LLM（大型语言模型）

　　现在让我们把所有东西都与大多数人今天实际接触的东西联系起来——大型语言模型（LLM）。

　　从宏观层面来说，LLM（大语言模型）就是一个基于海量文本训练的Transformer模型。我们所说的数据来源于书籍、网站、代码，而且通常是数千亿甚至数万亿个词元。

　　训练的目标是什么？

　　出乎意料的简单。

　　该模型通过尝试预测下一个标记来学习。

　　就是这样。

　　听起来似乎过于简单，难以发挥强大作用。

　　但是，当你在数万亿个例子中重复这个过程时，就会发生一些有趣的事情。

　　该模型开始捕捉语言中的模式。它学习句子的结构、思想之间的联系，甚至推理的流程。随着时间的推移，这看起来很像理解，尽管它实际上只是大规模的模式学习。

　　这就是为什么这些模型可以执行诸如编写代码、回答问题、翻译语言或解释复杂主题之类的任务，即使它们从未被专门训练用于这些特定任务。

　　大型语言模型中的“大型”指的是参数的数量。

　　这些是模型在训练过程中学习到的内部值，现代模型拥有数千亿个这样的值。

　　如此大规模的训练成本并不低。它需要大量的计算资源，通常要花费数百万美元。

　　但最终得到的系统能够推广到各种各样的问题，并产生出人意料的有用输出。

　　所以当你使用像 ChatGPT、Claude 或 Gemini 这样的工具时……

　　你实际上是在与一个通过反复做一件简单的事情来预测接下来会发生什么，从而学习语言的模型进行互动。

　　8. 上下文窗口

　　每个人工智能模型一次能“记住”的信息量都是有限的。

　　这个限制被称为上下文窗口。

　　它指的是模型在单次交互中可以处理的最大词元数，包括你输入的内容和模型生成的响应内容。简单来说，它就像模型的短期工作记忆。

　　在早期的模型中，这个内存容量非常小。

　　例如，早期版本的GPT一次只能处理几千个词元。这意味着冗长的对话很快就会丢失之前的细节，大型文档也必须进行删减或拆分。

　　但现在情况已经发生了很大变化。

　　现代模型能够处理更大的上下文。有些模型可以一次性处理整本书、冗长的对话或大段代码。这使得它们在上下文至关重要的实际任务中更加实用。

　　但这里有个问题。

　　更大的上下文窗口是有代价的。

　　它需要更多内存、更多计算资源，而且通常会导致响应速度变慢。因此，虽然理论上越大越好，但实际上也会使系统更笨重、运行成本更高。

　　即使使用较大的上下文窗口，也存在另一个不易察觉的限制。

　　模型不会平等对待输入的每个部分。

　　他们往往更关注开头和结尾，而中间的信息有时会被忽略。这通常被称为“中间信息缺失”问题。

　　所以，尽管上下文窗口越来越大、越来越好……

　　它们仍然不够完美。

　　理解这一点有助于解释为什么有时模型会“忘记”你之前明确提到的一些事情。

　　9. 温度

　　语言模型生成文本时，并非直接选择下一个词。

　　在后台，它会计算每个可能的下一个令牌的概率，然后决定选择哪一个。

　　这就涉及到温度了。

　　温度决定了这种选择的“严格”或“创造性”。

　　在极低温度下，该模型会采取保守策略。

　　它几乎总是选择最有可能的下一个词元，这使得输出结果更可预测、更集中、更一致。这就是为什么低温处理非常适合编写代码、总结内容或任何准确性比创造性更重要的任务。

　　随着温度升高，模型会变得更加灵活。

　　它不会总是选择最佳选项，而是会根据概率探索其他可能性。这增加了多样性，使输出结果感觉更自然或更具创意，这对于头脑风暴或撰写同一内容的不同版本等场景非常有用。

　　如果温度再升高，情况就会变得难以预测。

　　该模型或许能产生更出人意料或更具想象力的回答，但也可能很快失去连贯性，尤其是在输出较长内容时。此时，准确性不再是重点，实验性才是关键。

　　因此，实际上，温度只是控制模型行为的一种方式。

　　数值越低，精度和可靠性越高；数值越高，创造性和多样性越高。

　　选择合适的平衡点完全取决于你想从中获得什么。

　　10. 幻觉

　　这是认真使用人工智能时最先注意到的事情之一。

　　有时，模型给出的答案听起来非常有把握……

　　但结果却错了。

　　那叫做幻觉。

　　它可能会自信地提及一项根本不存在的研究，推荐一个从未创建过的应用程序接口（API），或者把捏造的事实当作常识来陈述。而最棘手的是，这一切听起来似乎合情合理。

　　为什么会发生这种情况？

　　因为从本质上讲，语言模型并不是要讲述真相。

　　它试图生成最有可能的下一段文本。

　　它从海量数据中学习到了各种模式，它的任务是以一种自然流畅的方式延续这些模式。但它实际上并不验证自己所说的话是否正确。

　　因此，如果一个错误的陈述看起来像是接下来应该出现的内容，该模型就会以十足的置信度生成它。

　　而这正是幻觉在现实世界应用中面临巨大挑战的原因。

　　你不能盲目相信输出结果，尤其是对于事实、代码或重要决策之类的东西。

　　因此，如今许多系统都试图通过将模型建立在真实数据之上来减少这个问题，例如将其连接到可信文档或要求其尽可能引用来源。

　　归根结底，该模型在模拟真实声音方面做得非常出色。

　　但这仍然需要人（你）来检查它是否真的正确。

　　完成LLM课程后，我们现在来谈谈训练和优化。

　　11. 微调

　　微调是指在模型掌握基本功能之后进行的操作。

　　你无需从零开始训练模型，而是使用预训练模型，并在一个规模更小、更聚焦的数据集上继续训练它。模型已经理解通用语言，所以你并非从零开始教它，而只是引导它朝着特定的方向发展。

　　可以把它看作是专业化。

　　通用模型可能擅长回答各种问题，但如果你想让它在特定领域表现出色，你可以使用更有针对性的数据对其进行微调。

　　例如，如果你想要一个能够理解法律文件的模型，你可以用合同、案例摘要和法律解释等材料对其进行进一步训练。随着时间的推移，它会开始以更适合该领域的方式做出反应。

　　但这样做是有代价的。

　　微调通常涉及更新模型的大部分内部参数。由于这些模型非常庞大，因此这个过程需要强大的基础设施。

　　你需要足够的内存来加载整个模型，以及训练过程中所需的所有额外数据。对于非常大的模型，这通常意味着需要多个高端GPU和大量的计算资源。

　　因此，虽然微调功能强大，但它并不总是轻便或易于设置。

　　它赋予你控制权和自定义权，但同时也增加了复杂性和成本。

　　12. RLHF（基于人类反馈的强化学习）

　　到目前为止，我们讨论的所有内容都解释了模型是如何学习语言的。

　　但这并没有解释一些重要的事情……

　　为什么现代人工智能模型给人的感觉如此乐于助人、礼貌周到、善于交谈？

　　这就是RLHF的用武之地。

　　RLHF 的核心在于将模型从“仅仅预测下一个标记”转变为符合人类期望的东西。

　　如果没有它，模型仍然可以生成流畅的文本——但这些文本未必有用、安全，甚至合适。它只会继续执行任何看起来最有可能的模式，而不管这种模式是否真的对你有帮助。

　　那么RLHF是如何解决这个问题的呢？

　　它将人的判断引入到训练过程中。

　　该模型并非仅仅依赖原始数据，而是以人们的实际偏好为指导。对于给定的提示，模型会生成多个可能的回复，然后由人们进行比较，判断哪些回复更有帮助、更清晰或更安全。

　　随着时间的推移，该模型学会了偏爱人类一贯选择的答案类型。

　　有趣的是，该模型并没有直接记忆这些答案。

　　这是培养偏好意识的过程。

　　它开始理解诸如以下事情：

　　好的答案是什么样的，
　　如何正确地遵循指示，
　　以及何时避免有害或误导性的回答。

　　这就是为什么现代聊天机器人与旧系统感觉非常不同的原因。

　　他们不仅说得流利，而且感觉他们好像在努力帮助你。

　　即使没有RLHF（或类似的对齐方法），该模型仍然非常强大……

　　但在实际应用中，它的可靠性会大大降低，安全性也会降低，使用起来也会困难得多。

　　13. LoRA（低秩自适应）

　　我们刚才讨论了微调及其强大的功能。

　　但这里有个问题。

　　对庞大模型进行微调意味着要更新数十亿个参数，这很快就会变得成本高昂且难以管理。并非所有人都能够获得这种基础设施。

　　这就是LoRa的用武之地。

　　LoRA并没有修改整个模型，而是采用了一种轻量级的方法。

　　它保持原始模型不变，并在其基础上添加一些可训练的小组件。这些额外组件与完整模型相比非常小——通常只占总参数的百分之几。

　　所以，你不需要重写整个系统，只需要在需要的地方进行一些小的调整。

　　这个想法出乎意料地巧妙。

　　在对模型进行微调时，大多数变化实际上并不需要进行完整的更新。它们可以用更小的变换来近似实现。LoRa 正是利用了这一点，以紧凑的方式捕捉这些变化。

　　这为什么重要？

　　因为它使微调变得更加容易。

　　过去需要多块高端GPU才能完成的任务，现在通常可以在单台机器上完成。而且，您无需保存多个完整的模型版本，而是可以存储不同的LoRa适配器，并根据任务需求进行切换。

　　简而言之，LoRA 为您带来微调的优势……

　　而无需承担通常伴随而来的沉重代价。

　　14. 量化

　　模型越大，运行起来就越困难。

　　他们需要更多的内存、更强的计算能力和更强大的硬件。

　　这就是量化技术发挥作用的地方。

　　量化本质上是一种通过更有效地存储模型权重来减小模型体积、降低运行成本的方法。

　　在全精度模型中，每个权重都使用大量的比特来存储。量化技术有时会显著减小比特数，这意味着整个模型占用的内存要少得多。

　　这个想法很简单：降低精度，但保留大部分有用信息。

　　当你减小每个重量的体积时，影响会迅速累积。

　　原本需要大量内存的模型，突然间可以变得足够小，从而能够在更易获取的硬件上运行。而且令人惊讶的是，质量下降通常比预期的要小得多，尤其是在适度量化的情况下。

　　这是大型模型变得越来越实用的关键原因之一。

　　当你看到有人在台式机GPU甚至笔记本电脑上运行强大的模型时，他们通常使用的并非完整版本，而是经过压缩以适应实际应用限制的量化版本。

　　简单来说，量化技术有助于将大型人工智能模型从庞大的数据中心中解放出来……

　　并融入日常使用的机器中。

　　现在我们理解了提示和推理

　　15.提示工程

　　如果你哪怕只是稍微使用过人工智能，你可能已经注意到这一点了……

　　你提问的方式很重要。

　　这就是提示工程的意义所在。

　　这是通过调整输入数据，使模型能够提供更好、更有用的输出结果的过程。

　　同一个问题，用两种不同的方式问，可能会得到完全不同的结果。

　　如果你说“解释一下 API”，模型通常会给出一个宽泛、浅显的答案。但如果你问“用一个实际例子解释一下 REST API 如何处理身份验证”，你就给它指明了方向，输出结果会立刻变得更加聚焦和实用。

　　好的提示语不在于复杂，而在于清晰。

　　当你清晰地定义自己的需求时，模型更有可能准确地满足你的需求。有时这意味着设定一个角色，例如要求模型以经验丰富的工程师的身份做出回应。有时则意味着提供示例、将任务分解成多个步骤，或者简单地明确说明格式和语气。

　　随着时间的推移，你会意识到一些重要的事情。

　　及时的工程设计并非只是一种技巧或权宜之计。

　　这是你与模型沟通的主要方式。

　　而且这种差别非常巨大。

　　模糊的提示只会输出通用结果。

　　精心设计的提示则可以提供结构化、准确且真正可用的结果。

　　16. 思维链（CoT）

　　有时模型给出错误答案并非因为它一无所知，而是因为它过快地得出答案。

　　这就涉及到逻辑推理了。

　　这是一种引导式方法，模型会分步骤解决问题，而不是直接得出最终结果。这种方法对于涉及逻辑、数学或任何需要多步骤推理的任务都非常有帮助。

　　一个简单的理解方法是这样的：

　　如果你只要求给出最终答案，模型可能会过度依赖模式匹配。但如果你鼓励它更仔细地解决问题，它就更有可能得出正确的结果。

　　例如，如果你直接让模型解决乘法问题，它有时可能会猜错。但如果它先把问题分解成更小的部分，然后再把它们组合起来，答案就会可靠得多。

　　这就是为什么思维链经常被描述为给模型提供一个临时的思考空间。

　　与其强迫系统立即做出反应，不如允许它分小步骤处理任务。对于许多需要大量推理的问题来说，这种小小的改变就能产生巨大的影响。

　　简而言之，给予模型足够的推理空间来完成任务，往往能获得更好的结果……

　　而不是要求它直接得出结论。

　　现在来说说构建人工智能系统

　　17. RAG（检索增强生成）

　　还记得我们之前讨论过的幻觉问题吗？

　　RAG是处理这个问题最实用的方法之一。

　　这个想法很简单。

　　与其仅仅依赖模型已有的知识，不如让它在回答问题时能够获取真实的、相关的信息。

　　在生成答案之前，系统首先会从知识库中搜索相关文档。这些文档随后会作为上下文信息传递给模型，模型会利用这些信息生成更合理的答案。

　　你可以这样想。

　　该模型可以先查找相关信息，而不是直接从记忆中回答问题。

　　例如，假设你正在开发一个客服助手。当有人询问价格或政策时，系统不会猜测。它首先会从你的内部文档中提取最新信息，然后模型会以清晰自然的方式进行解释。

　　这种方法的优势在于角色分离。

　　该模型侧重于理解问题并解释答案。知识库则提供实际的事实依据。

　　这有很大的优势。

　　如果您的信息发生变化，无需重新训练模型。只需更新文档，系统就会立即开始使用新数据。

　　简单来说，RAG 将模型从一种记忆方式转变为……

　　变成能够读取、验证并根据真实上下文做出回应的东西。

　　正因如此，它在实际应用中才更加可靠。

　　18. 向量数据库

　　所以如果 RAG 的目的是获取正确的信息……

　　系统究竟是如何找到它的？

　　这时就需要用到向量数据库了。

　　向量数据库不是以传统方式存储文本，而是存储嵌入向量，也就是我们之前讨论过的含义的数值表示。

　　这样一来，系统就可以基于语义相似性进行搜索，而不仅仅是基于确切的词语。

　　这就是它在实践中的样子。

　　首先，您的文档会被分割成更小的块，每个块都会被转换成一个嵌入向量。然后，这些嵌入向量会被存储在数据库中。

　　当用户提出问题时，该查询也会被转换成一个向量嵌入。然后，系统会寻找与其含义最接近的已存储向量（即语义最相似的向量），并将这些向量作为上下文信息返回。

　　它的强大之处在于它与传统搜索截然不同。

　　如果使用精确的关键词进行搜索，可能会因为措辞不同而错过相关信息。但使用矢量搜索，系统仍然能够找到正确的内容，因为它不仅理解词语本身，更能理解词语背后的意图。

　　这就是 RAG 系统运作如此成功的原因。

　　该模型不仅检索文本，还检索最相关的含义。

　　有好几种工具可以处理这种搜索，包括 Pinecone、Weaviate、Qdrant 等系统，甚至还有支持基于向量的查询的 PostgreSQL 扩展。

　　简单来说，向量数据库使人工智能系统能够超越关键词匹配的范畴……

　　开始以人类的思维方式进行搜索。

　　19. 人工智能代理

　　到目前为止，我们讨论的所有内容都集中在生成文本的模型上。

　　但如果这个模型真的能做一些事情呢？

　　这时人工智能代理就派上用场了。

　　人工智能代理本质上是一个能够采取行动而不仅仅是做出回应的语言模型。它不会止步于给出答案，而是可以与工具交互、运行代码、搜索信息、调用API，并将这些步骤结合起来完成任务。

　　换句话说，它从思考转向行动。

　　大多数代理都以简单的循环方式运行。

　　它们会分析当前情况，决定下一步行动，采取行动，然后根据变化重复这个过程。语言模型位于这个循环的核心，在每个步骤中都扮演着决策者的角色。

　　想象一下，一个编程助手正在修复一个bug。

　　它读取问题描述，探索代码库，找出可能出错的地方，编写修复程序，运行测试，查看哪些部分失败，然后调整解决方案，直到一切正常。每一步都依赖于前一步，并且随着新信息的到来，模型会不断调整。

　　这很强大，但同时也带来了一些棘手的问题。

　　每一步都有可能出错，而这些小错误累积起来也会造成严重后果。一项看似简单的任务，如果涉及连续多个决策，就可能变得不可靠。

　　所以，培养优秀的代理人不仅仅是让他们具备能力。

　　关键在于使它们可靠。

　　现代系统非常注重规划、验证、重试和自我纠正，以保持这些多步骤工作流程的正常进行。

　　简单来说，人工智能代理就是将语言模型转化为能够在现实世界中实际采取行动的系统。

　　20. 扩散模型

　　到目前为止，我们主要讨论的是文本。

　　那么图片呢？

　　这就是扩散模型在许多现代图像生成器背后的技术中发挥作用的地方。

　　这个想法出乎意料地违反直觉。

　　该模型不是直接学习如何创建图像，而是先学习如何销毁图像。

　　在训练过程中，通过反复添加噪声，逐步破坏真实图像，直至其完全变成静态图像。然后，训练模型逐步逆转这一过程，学习如何去除噪声并恢复原始图像。

　　当需要创造新事物时，流程就会反转。

　　你从纯粹的噪音开始。

　　然后，模型会逐步完善图像，添加结构、形状和细节，直到最终形成完整的图像。每一步都根据你的提示进行优化，将随机性转化为有意义的内容。

　　“扩散”这个名称来源于物理学，指的是粒子随时间随机扩散，就像墨水在水中扩散一样。

　　在这里，该模型学习的是相反的方向，即如何从这种随机性中恢复秩序。

　　有趣的是，这个想法不再局限于图像了。

　　现在，同样的方法也被用于生成视频、音频、3D 内容，甚至应用于分子设计或蛋白质结构预测等科学领域。

　　简单来说，扩散模型使人工智能能够处理纯粹的噪声……

　　并将其转化为你实际能看到、听到或使用的东西。

　　我真高兴你一路来到了这里。

　　感谢您抽出时间阅读本文。

　　如果这篇文章能帮助你更好地理解人工智能哪怕一个概念，对我来说都意义重大。

　　如果您觉得这篇文章有价值，

　　请不要忘记点赞👏并分享给正在学习人工智能的朋友或同事。

关注我们