如何使用 TensorFlow 和 Estimator 通过提升树显示数据的样本?
可以使用 TensorFlow 中的提升树,通过 'head' 方法、'describe' 方法和 'shape' 方法来显示泰坦尼克号数据集的样本。'head' 方法显示数据集的前几行,'describe' 方法显示有关数据集的信息,例如列名、类型、均值、方差、标准差等等。'shape' 方法显示数据的维度。
阅读更多: 什么是 TensorFlow 以及 Keras 如何与 TensorFlow 协同创建神经网络?
我们将使用 Keras Sequential API,它有助于构建一个顺序模型,用于处理简单的层堆栈,其中每一层只有一个输入张量和一个输出张量。
包含至少一层卷积层的神经网络称为卷积神经网络。我们可以使用卷积神经网络来构建学习模型。
我们正在使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 帮助在浏览器上运行 Python 代码,无需任何配置,并可免费访问 GPU(图形处理单元)。Colaboratory 建立在 Jupyter Notebook 之上。
我们将了解如何使用决策树和 tf.estimator API 训练梯度提升模型。
Estimator 是 TensorFlow 中对完整模型的高级表示。它旨在实现轻松扩展和异步训练。Estimator 使用特征列来描述模型如何解释原始输入特征。Estimator 期望一个数值输入向量,而特征列将有助于描述模型应该如何转换数据集中每个特征。
提升树模型被认为是回归和分类中最流行和有效的机器学习方法。这是一种集成技术,它结合了来自许多(10 个、100 个或 1000 个)树模型的预测。
示例
print("Some sample of the data") print(dftrain.head()) print("Metadata about the dataset") print(dftrain.describe()) print("Dimensions of the data") print(dftrain.shape[0], dfeval.shape[0])
代码来源 −https://tensorflowcn.cn/tutorials/estimator/boosted_trees
输出
Some sample of the data sex age n_siblings_spouses parch ... class deck embark_town alone 0 male 22.0 1 0 ... Third unknown Southampton n 1 female 38.0 1 0 ... First C Cherbourg n 2 female 26.0 0 0 ... Third unknown Southampton y 3 female 35.0 1 0 ... First C Southampton n 4 male 28.0 0 0 ... Third unknown Queenstown y [5 rows x 9 columns] Metadata about the dataset age n_siblings_spouses parch fare count 627.000000 627.000000 627.000000 627.000000 mean 29.631308 0.545455 0.379585 34.385399 std 12.511818 1.151090 0.792999 54.597730 min 0.750000 0.000000 0.000000 0.000000 25% 23.000000 0.000000 0.000000 7.895800 50% 28.000000 0.000000 0.000000 15.045800 75% 35.000000 1.000000 0.000000 31.387500 max 80.000000 8.000000 5.000000 512.329200 Dimensions of the data 627 264
解释
- 数据集包含训练集和评估集。
- dftrain 和 y_train 是训练集。
- 模型使用它来学习特征和模式。
- 使用评估集 dfeval 和 y_eval 测试模型。
- 获得并显示某些数据的汇总统计信息。