RNN及其变体的数学理解


循环神经网络(RNN)是一种特殊的深度学习(DL)类型,擅长按顺序分析输入。它们广泛应用于多个领域,例如自然语言处理(NLP)、语言翻译等。本文将探讨一些流行的 RNN 变体,并深入研究其背后的数学原理。

循环神经网络的基础

循环神经网络是一种特殊的神经网络结构,可以通过维护内部状态来处理顺序信息。这些状态也被称为隐藏状态。RNN 对序列中的每个元素都以相同的方式运行,同时保持并改变其隐藏状态。这是它背后的基本原理。通过将隐藏状态用作序列中先前元素的内存,神经网络可以捕获依赖关系和时间相关数据。

RNN 的数学公式

考虑一个简单的具有一个隐藏层的 RNN。给定长度为 T 的输入序列,我们可以将时间点 t 处的输入序列表示为 x(t),将时间点 t 处的隐藏状态表示为 h(t)。RNN 使用以下计算来更新其隐藏状态。

W(hh)h(t-1) + W(xh)x(t) + b(h) = h(t)     [Equation 1]
W(hy)h(t) + b(y) = y(t).                  [Equation 2]

在公式 1 中,W(hh) 表示隐藏到隐藏的交互权重矩阵,W(xh) 表示输入到隐藏关联的权重矩阵,b(h) 表示隐藏层的偏置向量,f 表示逐元素实现的激活函数。公式 2 表示在时间步 t 获得的结果,其中 W(hy) 是连接隐藏层到输出层的权重矩阵,b(y) 是输出层的偏置向量,g 是用于生成输出的激活函数。

通过时间反向传播 (BPTT)

为了训练 RNN,我们需要计算梯度并更新模型参数。RNN 中的梯度计算算法称为通过时间反向传播 (BPTT)。通过时间步反向传播 (BPTT) 算法是标准反向传播技术的修改版本。

探索 RNN 变体

(a) 长短期记忆网络 (LSTM)

LSTM 是 RNN 的一种变体,它解决了梯度消失问题,并且可以捕获长期依赖关系。LSTM 引入了三个门控机制——输入门、遗忘门和输出门,以及一个记忆单元。这些门控机制控制数据在记忆单元内部和外部的流动,使网络能够根据需要保留或丢弃特定信息。

(b) 门控循环单元 (GRU)

这种 RNN 变体简化了 LSTM 的设计,同时实现了类似的结果。GRU 将细胞状态和隐藏状态合并,并将 LSTM 的遗忘门和输入门合并成一个更新门。这种简化降低了计算复杂度,减少了所需的运算和参数。

(c) 双向 RNN

有时,做出准确的预测需要依赖过去和未来的时间步的信息。双向 RNN (BiRNN) 通过向前和向后两个方向处理序列,来捕获两个时间方向上的依赖关系。BiRNN 在命名实体识别和语音识别等任务中取得了成功。

(d) 注意力机制

将注意力机制添加到 RNN 中,使网络能够关注输入序列的相关部分。注意力机制构建了所有隐藏状态的加权和,而不是仅仅依赖 RNN 的最终隐藏状态,从而为输入序列的重要部分赋予更大的权重。这使模型能够灵活地关注某些特征,并提高其在机器学习任务中的性能。

(e) 基于 Transformer 的模型

RNN 及其变体获得了广泛的普及,但是,它们在并行计算和解决长距离依赖方面存在缺点。基于 Transformer 的模型是由 Vaswani 等人在 2017 年首次提出的,已成为一种强大的替代方案。与 RNN 不同,Transformer 使用自注意力机制来处理整个输入序列。

自注意力是 Transformer 中的主要数学组成部分。它使模型能够在进行预测时考虑输入序列中不同位置的相对权重。通过计算注意力权重(将序列中的每个位置与其他所有位置进行比较),模型能够有效地捕获局部和全局依赖关系。

在自然语言处理任务(如机器翻译和语言生成)中,它们取得了令人印象深刻的结果。大型预训练模型(如 BERT、GPT 和 T5)以它们为基础,极大地推动了各种 NLP 应用的最新发展。

尽管 Transformer 越来越受欢迎,但它们不应被视为 RNN 的直接替代品。在语音识别和时间序列分析等应用中,RNN 仍然表现良好,在这些应用中,时间数据和处理顺序至关重要。根据问题的性质,应选择 RNN 或 Transformer(或两者的组合)。

结论

循环神经网络 (RNN) 及其变体彻底改变了顺序信息建模领域。RNN 能够识别时间相关性并处理可变长度的输入,这使得它们在各种领域取得了最先进的结果。在这篇博文中,我们探讨了 RNN 的数学知识,包括通过时间反向传播 (BPTT) 算法及其基本公式。我们还介绍了一些流行的 RNN 变体,包括 LSTM、GRU、双向 RNN 和注意力机制。这些变体通过解决梯度消失、长期依赖关系和捕获双向信息等问题,帮助 RNN 在各种应用中取得成功。随着深度学习的发展,RNN 及其衍生产品可能会继续主导顺序数据评估,从而推动语音识别、自然语言处理等领域的创新。

更新于: 2023年7月31日

364 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告