- Microsoft Cognitive Toolkit(CNTK)教程
- 首页
- 介绍
- 入门
- CPU 和 GPU
- CNTK - 序列分类
- CNTK - 逻辑回归模型
- CNTK - 神经网络 (NN) 概念
- CNTK - 创建第一个神经网络
- CNTK - 训练神经网络
- CNTK - 内存数据集和大型数据集
- CNTK - 测量性能
- 神经网络分类
- 神经网络二元分类
- CNTK - 神经网络回归
- CNTK - 分类模型
- CNTK - 回归模型
- CNTK - 内存外数据集
- CNTK - 监控模型
- CNTK - 卷积神经网络
- CNTK - 循环神经网络
- Microsoft Cognitive Toolkit 资源
- Microsoft Cognitive Toolkit - 快速指南
- Microsoft Cognitive Toolkit - 资源
- Microsoft Cognitive Toolkit - 讨论
CNTK - 神经网络回归
本章将帮助您了解关于 CNTK 的神经网络回归。
介绍
众所周知,为了从一个或多个预测变量中预测数值,我们使用回归。让我们以预测某个 100 个城镇之一的房屋中位数为例。为此,我们拥有包含以下数据:-
每个城镇的犯罪统计数据。
每个城镇房屋的年龄。
每个城镇到主要位置的距离度量。
每个城镇的学生与教师比率。
每个城镇的人种人口统计数据。
每个城镇的房屋中位数。
基于这五个预测变量,我们希望预测房屋中位数。为此,我们可以创建一个类似于以下的线性回归模型:-
Y = a0+a1(crime)+a2(house-age)+(a3)(distance)+(a4)(ratio)+(a5)(racial)
在上式中:-
Y 是预测的中位数
a0 是常数,并且
a1 到 a5 都是与我们上面讨论的五个预测变量相关的常数。
我们还可以使用神经网络作为替代方法。它将创建更准确的预测模型。
在这里,我们将使用 CNTK 创建神经网络回归模型。
加载数据集
要使用 CNTK 实现神经网络回归,我们将使用波士顿地区房屋价值数据集。该数据集可从 UCI 机器学习存储库下载,网址为 https://archive.ics.uci.edu/。此数据集共有 14 个变量和 506 个实例。
但是,对于我们的实现程序,我们将使用 14 个变量中的 6 个和 100 个实例。在 6 个中,5 个作为预测变量,1 个作为要预测的值。从 100 个实例中,我们将使用 80 个用于训练,20 个用于测试。我们想要预测的值是城镇的房屋中位数。让我们看看我们将使用的五个预测变量:-
城镇的人均犯罪率 - 我们预计较小的值与该预测变量相关联。
自住单位比例 - 1940 年之前建造的 - 我们预计较小的值与该预测变量相关联,因为较大的值表示房屋较旧。
城镇到波士顿五个就业中心的加权距离。
区域学校学生与教师比率。
城镇黑人居民比例的间接指标。
准备训练和测试文件
像之前一样,首先我们需要将原始数据转换为 CNTK 格式。我们将使用前 80 个数据项进行训练,因此制表符分隔的 CNTK 格式如下:-
|predictors 1.612820 96.90 3.76 21.00 248.31 |medval 13.50 |predictors 0.064170 68.20 3.36 19.20 396.90 |medval 18.90 |predictors 0.097440 61.40 3.38 19.20 377.56 |medval 20.00 . . .
接下来的 20 个项目也转换为 CNTK 格式,将用于测试。
构建回归模型
首先,我们需要处理 CNTK 格式的数据文件,为此,我们将使用名为 create_reader 的辅助函数,如下所示:-
def create_reader(path, input_dim, output_dim, rnd_order, sweeps): x_strm = C.io.StreamDef(field='predictors', shape=input_dim, is_sparse=False) y_strm = C.io.StreamDef(field='medval', shape=output_dim, is_sparse=False) streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm) deserial = C.io.CTFDeserializer(path, streams) mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps) return mb_src
接下来,我们需要创建一个辅助函数,该函数接受 CNTK 小批量对象并计算自定义准确度指标。
def mb_accuracy(mb, x_var, y_var, model, delta): num_correct = 0 num_wrong = 0 x_mat = mb[x_var].asarray() y_mat = mb[y_var].asarray() for i in range(mb[x_var].shape[0]): v = model.eval(x_mat[i]) y = y_mat[i] if np.abs(v[0,0] – y[0,0]) < delta: num_correct += 1 else: num_wrong += 1 return (num_correct * 100.0)/(num_correct + num_wrong)
现在,我们需要为我们的 NN 设置架构参数,并提供数据文件的路径。可以使用以下 Python 代码完成:-
def main(): print("Using CNTK version = " + str(C.__version__) + "\n") input_dim = 5 hidden_dim = 20 output_dim = 1 train_file = ".\\...\\" #provide the name of the training file(80 data items) test_file = ".\\...\\" #provide the name of the test file(20 data items)
现在,借助以下代码行,我们的程序将创建未经训练的 NN:-
X = C.ops.input_variable(input_dim, np.float32) Y = C.ops.input_variable(output_dim, np.float32) with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)): hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X) oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer) model = C.ops.alias(oLayer)
现在,一旦我们创建了双重未经训练的模型,我们就需要设置 Learner 算法对象。我们将使用 SGD 学习器和 squared_error 损失函数:-
tr_loss = C.squared_error(model, Y) max_iter = 3000 batch_size = 5 base_learn_rate = 0.02 sch=C.learning_parameter_schedule([base_learn_rate, base_learn_rate/2], minibatch_size=batch_size, epoch_size=int((max_iter*batch_size)/2)) learner = C.sgd(model.parameters, sch) trainer = C.Trainer(model, (tr_loss), [learner])
现在,一旦我们完成了学习算法对象,我们就需要创建一个 reader 函数来读取训练数据:-
rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT) boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
现在,是时候训练我们的 NN 模型了:-
for i in range(0, max_iter): curr_batch = rdr.next_minibatch(batch_size, input_map=boston_input_map) trainer.train_minibatch(curr_batch) if i % int(max_iter/10) == 0: mcee = trainer.previous_minibatch_loss_average acc = mb_accuracy(curr_batch, X, Y, model, delta=3.00) print("batch %4d: mean squared error = %8.4f, accuracy = %5.2f%% " \ % (i, mcee, acc))
训练完成后,让我们使用测试数据项评估模型:-
print("\nEvaluating test data \n") rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1) boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src } num_test = 20 all_test = rdr.next_minibatch(num_test, input_map=boston_input_map) acc = mb_accuracy(all_test, X, Y, model, delta=3.00) print("Prediction accuracy = %0.2f%%" % acc)
在评估我们训练好的 NN 模型的准确性后,我们将使用它对未见过的数据进行预测:-
np.set_printoptions(precision = 2, suppress=True) unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32) print("\nPredicting median home value for feature/predictor values: ") print(unknown[0]) pred_prob = model.eval({X: unknown) print("\nPredicted value is: ") print(“$%0.2f (x1000)” %pred_value[0,0])
完整回归模型
import numpy as np import cntk as C def create_reader(path, input_dim, output_dim, rnd_order, sweeps): x_strm = C.io.StreamDef(field='predictors', shape=input_dim, is_sparse=False) y_strm = C.io.StreamDef(field='medval', shape=output_dim, is_sparse=False) streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm) deserial = C.io.CTFDeserializer(path, streams) mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps) return mb_src def mb_accuracy(mb, x_var, y_var, model, delta): num_correct = 0 num_wrong = 0 x_mat = mb[x_var].asarray() y_mat = mb[y_var].asarray() for i in range(mb[x_var].shape[0]): v = model.eval(x_mat[i]) y = y_mat[i] if np.abs(v[0,0] – y[0,0]) < delta: num_correct += 1 else: num_wrong += 1 return (num_correct * 100.0)/(num_correct + num_wrong) def main(): print("Using CNTK version = " + str(C.__version__) + "\n") input_dim = 5 hidden_dim = 20 output_dim = 1 train_file = ".\\...\\" #provide the name of the training file(80 data items) test_file = ".\\...\\" #provide the name of the test file(20 data items) X = C.ops.input_variable(input_dim, np.float32) Y = C.ops.input_variable(output_dim, np.float32) with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)): hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X) oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer) model = C.ops.alias(oLayer) tr_loss = C.squared_error(model, Y) max_iter = 3000 batch_size = 5 base_learn_rate = 0.02 sch = C.learning_parameter_schedule([base_learn_rate, base_learn_rate/2], minibatch_size=batch_size, epoch_size=int((max_iter*batch_size)/2)) learner = C.sgd(model.parameters, sch) trainer = C.Trainer(model, (tr_loss), [learner]) rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT) boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src } for i in range(0, max_iter): curr_batch = rdr.next_minibatch(batch_size, input_map=boston_input_map) trainer.train_minibatch(curr_batch) if i % int(max_iter/10) == 0: mcee = trainer.previous_minibatch_loss_average acc = mb_accuracy(curr_batch, X, Y, model, delta=3.00) print("batch %4d: mean squared error = %8.4f, accuracy = %5.2f%% " \ % (i, mcee, acc)) print("\nEvaluating test data \n") rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1) boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src } num_test = 20 all_test = rdr.next_minibatch(num_test, input_map=boston_input_map) acc = mb_accuracy(all_test, X, Y, model, delta=3.00) print("Prediction accuracy = %0.2f%%" % acc) np.set_printoptions(precision = 2, suppress=True) unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32) print("\nPredicting median home value for feature/predictor values: ") print(unknown[0]) pred_prob = model.eval({X: unknown) print("\nPredicted value is: ") print(“$%0.2f (x1000)” %pred_value[0,0]) if __name__== ”__main__”: main()
输出
Using CNTK version = 2.7 batch 0: mean squared error = 385.6727, accuracy = 0.00% batch 300: mean squared error = 41.6229, accuracy = 20.00% batch 600: mean squared error = 28.7667, accuracy = 40.00% batch 900: mean squared error = 48.6435, accuracy = 40.00% batch 1200: mean squared error = 77.9562, accuracy = 80.00% batch 1500: mean squared error = 7.8342, accuracy = 60.00% batch 1800: mean squared error = 47.7062, accuracy = 60.00% batch 2100: mean squared error = 40.5068, accuracy = 40.00% batch 2400: mean squared error = 46.5023, accuracy = 40.00% batch 2700: mean squared error = 15.6235, accuracy = 60.00% Evaluating test data Prediction accuracy = 64.00% Predicting median home value for feature/predictor values: [0.09 50. 4.5 17. 350.] Predicted value is: $21.02(x1000)
保存训练好的模型
此波士顿房屋价值数据集只有 506 个数据项(其中我们只使用了 100 个)。因此,训练 NN 回归模型只需要几秒钟,但在拥有数百或数千个数据项的大型数据集上进行训练可能需要数小时甚至数天。
我们可以保存我们的模型,这样我们就无需从头开始保留它。借助以下 Python 代码,我们可以保存我们训练好的 NN:-
nn_regressor = “.\\neuralregressor.model” #provide the name of the file model.save(nn_regressor, format=C.ModelFormat.CNTKv2)
以下是上面使用的 save() 函数的参数:-
文件名是 save() 函数的第一个参数。它也可以与文件的路径一起编写。
另一个参数是 format 参数,其默认值为 C.ModelFormat.CNTKv2。
加载训练好的模型
保存训练好的模型后,加载该模型非常容易。我们只需要使用 load() 函数即可。让我们在以下示例中检查一下:-
import numpy as np import cntk as C model = C.ops.functions.Function.load(“.\\neuralregressor.model”) np.set_printoptions(precision = 2, suppress=True) unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32) print("\nPredicting area median home value for feature/predictor values: ") print(unknown[0]) pred_prob = model.eval({X: unknown) print("\nPredicted value is: ") print(“$%0.2f (x1000)” %pred_value[0,0])
保存模型的好处是,一旦加载保存的模型,就可以像刚刚训练模型一样使用它。