生成式AI中的Transformer架构

基于Transformer的大型语言模型(LLM)在情感分析、机器翻译、文本摘要等各种任务中都优于之前的循环神经网络(RNN)。

Transformer的独特能力源于其架构。本章将用简单的术语解释原始Transformer模型的主要思想，以便更容易理解。

我们将重点关注构成Transformer的关键组件：**编码器**、**解码器**以及连接它们的独特**注意力机制**。

Transformer在生成式AI中如何工作？

让我们了解Transformer的工作原理：

Transformer有两个主要组成部分：**编码器**和**解码器**。以下是Transformer的简化架构：

如图所示，在Transformer的左侧，输入进入编码器。输入首先被转换为输入嵌入，然后经过注意力子层和前馈网络(FFN)子层。类似地，在右侧，目标输出进入解码器。

输出也首先被转换为输出嵌入，然后经过两个注意力子层和一个前馈网络(FFN)子层。在这个架构中，没有RNN、LSTM或CNN。递归也被抛弃，并被注意力机制取代。

让我们详细讨论Transformer的两个主要组成部分，即编码器和解码器。

Explore our latest online courses and learn new skills at your own pace. Enroll and become a certified expert to boost your career.

在Transformer中，编码器处理输入序列并将其分解成一些有意义的表示。Transformer模型编码器的层是**层堆栈**，其中每个编码器堆栈层具有以下结构：

这种编码器层的结构对于Transformer模型的所有层都是相同的。每个编码器堆栈层包含以下两个子层：

正如我们在上图中看到的，在两个子层（即多头注意力机制和前馈网络）周围都有一个残差连接。这些残差连接的作用是将子层的未经处理的输入**x**发送到层归一化函数。

这样，每一层的归一化输出就可以计算如下：

层归一化(x + 子层(x))

我们将在后续章节中详细讨论子层（即多头注意力和FNN）、输入嵌入、位置编码、归一化和残差连接。

在Transformer中，解码器接收编码器生成的表示并对其进行处理以生成输出序列。这就像翻译或文本续写。与编码器一样，Transformer模型解码器的层也是**层堆栈**，其中每个解码器堆栈层具有以下结构：

与编码器层一样，解码器层的结构对于Transformer模型的所有N=6层都是相同的。每个解码器堆栈层包含以下三个子层：

与编码器相反，解码器有一个第三个子层称为掩码多头注意力，其中，在给定位置，后续的词语会被掩码。这个子层的优点是Transformer根据其推断进行预测，而无需查看整个序列。

与编码器一样，所有子层周围都有一个残差连接，并且每一层的归一化输出可以计算如下：

层归一化(x + 子层(x))

正如我们在上图中看到的，在所有解码器块之后还有一个最终的线性层。这个线性层的作用是将数据映射到所需的输出词汇量大小。然后将softmax函数应用于映射后的数据，以生成目标词汇量的概率分布。这将产生最终的输出序列。

本章详细解释了生成式AI中Transformer的架构。我们主要关注它的两个主要部分：编码器和解码器。

编码器的作用是通过查看所有单词之间的关系来理解输入序列。它使用自注意力和前馈层来创建输入的详细表示。

解码器接收输入的详细表示并生成输出序列。它使用掩码自注意力来确保按正确的顺序生成序列，并利用编码器-解码器注意力来整合来自编码器的信息。

通过探索编码器和解码器的工作方式，我们看到了Transformer如何从根本上改变了自然语言处理(NLP)领域。正是编码器和解码器的结构使得Transformer在各个行业如此强大和有效，并改变了我们与AI系统交互的方式。

打印页面