Theano - 简单训练示例

Theano 在训练神经网络方面非常有用，在神经网络中，我们必须重复计算成本和梯度以达到最佳状态。在大型数据集上，这会变得计算密集。由于 Theano 对我们之前看到的计算图进行了内部优化，因此它可以有效地完成此操作。

问题陈述

我们现在将学习如何使用 Theano 库来训练一个网络。我们将以一个简单的案例为例，从一个具有四个特征的数据集开始。在对每个特征应用一定的权重（重要性）后，我们计算这些特征的总和。

训练的目标是修改分配给每个特征的权重，以便总和达到目标值 100。

sum = f1 * w1 + f2 * w2 + f3 * w3 + f4 * w4

其中f1、f2、... 是特征值，w1、w2、... 是权重。

为了更好地理解问题陈述，让我量化一下这个例子。我们将假设每个特征的初始值为 1.0，并将 w1 等于0.1、w2 等于0.25、w3 等于0.15 和 w4 等于0.3。分配权重值没有明确的逻辑，这只是我们的直觉。因此，初始总和如下所示：

sum = 1.0 * 0.1 + 1.0 * 0.25 + 1.0 * 0.15 + 1.0 * 0.3

总和为0.8。现在，我们将继续修改权重分配，以便此总和接近 100。当前0.8 的结果值与我们期望的 100 的目标值相差甚远。在机器学习术语中，我们将成本定义为目标值减去当前输出值的差值，通常将其平方以放大误差。我们通过计算梯度并更新权重向量来在每次迭代中减少此成本。

让我们看看如何在 Theano 中实现整个逻辑。

声明变量

我们首先声明我们的输入向量 x 如下所示：

x = tensor.fvector('x')

其中x 是一个包含浮点值的单维数组。

我们定义一个标量目标变量，如下所示：

target = tensor.fscalar('target')

接下来，我们创建一个权重张量W，其初始值如上所述：

W = theano.shared(numpy.asarray([0.1, 0.25, 0.15, 0.3]), 'W')

定义 Theano 表达式

我们现在使用以下表达式计算输出：

y = (x * W).sum()

请注意，在上述语句中，x 和W 是向量，而不是简单的标量变量。我们现在使用以下表达式计算误差（成本）：

cost = tensor.sqr(target - y)

成本是目标值与当前输出值的差值的平方。

为了计算梯度（它告诉我们距离目标有多远），我们使用内置的grad 方法，如下所示：

gradients = tensor.grad(cost, [W])

我们现在通过使用0.1 的学习率更新权重向量，如下所示：

W_updated = W - (0.1 * gradients[0])

接下来，我们需要使用上述值更新我们的权重向量。我们在以下语句中执行此操作：

updates = [(W, W_updated)]

定义/调用 Theano 函数

最后，我们在 Theano 中定义一个函数来计算总和。

f = function([x, target], y, updates=updates)

为了调用上述函数若干次，我们创建了一个for 循环，如下所示：

for i in range(10):
output = f([1.0, 1.0, 1.0, 1.0], 100.0)

如前所述，函数的输入是一个向量，其中包含四个特征的初始值 - 我们将每个特征的值分配为1.0，没有任何具体原因。您可以根据自己的选择分配不同的值，并检查函数是否最终收敛。我们将在每次迭代中打印权重向量和相应输出的值。它在下面的代码中显示：

print ("iteration: ", i)
print ("Modified Weights: ", W.get_value())
print ("Output: ", output)

完整程序清单

为了方便您快速参考，此处重新列出了完整的程序清单：

from theano import *
import numpy

x = tensor.fvector('x')
target = tensor.fscalar('target')

W = theano.shared(numpy.asarray([0.1, 0.25, 0.15, 0.3]), 'W')
print ("Weights: ", W.get_value())

y = (x * W).sum()
cost = tensor.sqr(target - y)
gradients = tensor.grad(cost, [W])
W_updated = W - (0.1 * gradients[0])
updates = [(W, W_updated)]

f = function([x, target], y, updates=updates)
for i in range(10):
   output = f([1.0, 1.0, 1.0, 1.0], 100.0)
   print ("iteration: ", i)
   print ("Modified Weights: ", W.get_value())
   print ("Output: ", output)

运行程序时，您将看到以下输出：

Weights: [0.1 0.25 0.15 0.3 ]
iteration: 0
Modified Weights: [19.94 20.09 19.99 20.14]
Output: 0.8
iteration: 1
Modified Weights: [23.908 24.058 23.958 24.108]
Output: 80.16000000000001
iteration: 2
Modified Weights: [24.7016 24.8516 24.7516 24.9016]
Output: 96.03200000000001
iteration: 3
Modified Weights: [24.86032 25.01032 24.91032 25.06032]
Output: 99.2064
iteration: 4
Modified Weights: [24.892064 25.042064 24.942064 25.092064]
Output: 99.84128
iteration: 5
Modified Weights: [24.8984128 25.0484128 24.9484128 25.0984128]
Output: 99.968256
iteration: 6
Modified Weights: [24.89968256 25.04968256 24.94968256 25.09968256]
Output: 99.9936512
iteration: 7
Modified Weights: [24.89993651 25.04993651 24.94993651 25.09993651]
Output: 99.99873024
iteration: 8
Modified Weights: [24.8999873 25.0499873 24.9499873 25.0999873]
Output: 99.99974604799999
iteration: 9
Modified Weights: [24.89999746 25.04999746 24.94999746 25.09999746]
Output: 99.99994920960002

观察到在四次迭代后，输出为99.96，在五次迭代后，输出为99.99，这接近我们期望的100.0 目标。

根据所需的精度，您可以安全地得出结论，网络在 4 到 5 次迭代中得到训练。训练完成后，查找权重向量，在 5 次迭代后，它取以下值：

iteration: 5
Modified Weights: [24.8984128 25.0484128 24.9484128 25.0984128]

您现在可以在网络中使用这些值来部署模型。

打印页面