CNTK - 神经网络 (NN) 概念

本章讨论关于 CNTK 的神经网络概念。

众所周知，神经网络由多层神经元构成。但是，问题在于如何在 CNTK 中建模 NN 的各层？这可以通过层模块中定义的层函数来实现。

层函数

实际上，在 CNTK 中，使用层具有明显的函数式编程风格。层函数看起来像一个普通函数，它产生一个具有预定义参数的数学函数。让我们看看如何使用层函数创建最基本的层类型 Dense。

示例

通过以下基本步骤，我们可以创建最基本的层类型：

步骤 1 - 首先，我们需要从 CNTK 的 layers 包中导入 Dense 层函数。

from cntk.layers import Dense

步骤 2 - 接下来，我们需要从 CNTK 根包中导入 input_variable 函数。

from cntk import input_variable

步骤 3 - 现在，我们需要使用 input_variable 函数创建一个新的输入变量。我们还需要提供其大小。

feature = input_variable(100)

步骤 4 - 最后，我们将使用 Dense 函数创建一个新层，并提供我们想要的 neurons 数量。

layer = Dense(40)(feature)

现在，我们可以调用已配置的 Dense 层函数将 Dense 层连接到输入。

完整的实现示例

from cntk.layers import Dense
from cntk import input_variable
feature= input_variable(100)
layer = Dense(40)(feature)

自定义层

正如我们所看到的，CNTK 为我们提供了一套相当不错的默认设置来构建 NN。根据我们选择的激活函数和其他设置，NN 的行为和性能会有所不同。这是另一个非常有用的词干提取算法。因此，了解我们可以配置什么内容是很好的。

配置 Dense 层的步骤

NN 中的每个层都有其独特的配置选项，当我们谈到 Dense 层时，我们有以下重要的设置需要定义：

shape - 顾名思义，它定义了层的输出形状，这进一步决定了该层中的神经元数量。
activation - 它定义了该层的激活函数，因此它可以转换输入数据。
init - 它定义了该层的初始化函数。当我们开始训练 NN 时，它将初始化该层的参数。

让我们看看我们可以使用哪些步骤来配置Dense层：

步骤 1 - 首先，我们需要从 layers 包中导入Dense层函数。

from cntk.layers import Dense

步骤 2 - 接下来，我们需要从 CNTK ops 包中导入sigmoid 算子。它将用作激活函数。

from cntk.ops import sigmoid

步骤 3 - 现在，我们需要从 initializer 包中导入glorot_uniform初始化器。

from cntk.initializer import glorot_uniform

步骤 4 - 最后，我们将使用 Dense 函数创建一个新层，并将神经元数量作为第一个参数提供。此外，还将sigmoid算子作为activation函数，并将glorot_uniform作为该层的init函数提供。

layer = Dense(50, activation = sigmoid, init = glorot_uniform)

完整的实现示例：

from cntk.layers import Dense
from cntk.ops import sigmoid
from cntk.initializer import glorot_uniform
layer = Dense(50, activation = sigmoid, init = glorot_uniform)

优化参数

到目前为止，我们已经了解了如何创建 NN 的结构以及如何配置各种设置。在这里，我们将了解如何优化 NN 的参数。借助于学习器和训练器这两个组件的组合，我们可以优化 NN 的参数。

训练器组件

用于优化 NN 参数的第一个组件是训练器组件。它基本上实现了反向传播过程。如果我们谈论它的工作原理，它会将数据通过 NN 传递以获得预测。

之后，它使用另一个称为学习器的组件来获取 NN 中参数的新值。一旦它获得新值，它就会应用这些新值并重复此过程，直到满足退出条件。

学习器组件

用于优化 NN 参数的第二个组件是学习器组件，它主要负责执行梯度下降算法。

CNTK 库中包含的学习器

以下是 CNTK 库中包含的一些有趣的学习器的列表：

随机梯度下降 (SGD) - 此学习器表示基本的随机梯度下降，没有任何额外功能。
动量随机梯度下降 (MomentumSGD) - 使用 SGD，此学习器应用动量来克服局部最大值的问题。
RMSProp - 此学习器为了控制下降率，使用衰减学习率。
Adam - 此学习器为了随着时间的推移降低下降率，使用衰减动量。
Adagrad - 此学习器对于频繁出现的和不频繁出现的特征使用不同的学习率。

打印页面