如何使用TensorFlow和Estimators探索泰坦尼克号数据集?
可以使用TensorFlow的estimator,通过`head`方法、`describe`方法和`shape`方法来探索泰坦尼克号数据集。`head`方法显示数据集的前几行,`describe`方法提供有关数据集的信息,例如列名、类型、均值、方差、标准差等等。`shape`方法给出数据的维度。
阅读更多: 什么是TensorFlow以及Keras如何与TensorFlow一起创建神经网络?
我们将使用Keras Sequential API,它有助于构建一个顺序模型,用于处理简单的层堆栈,其中每一层只有一个输入张量和一个输出张量。
包含至少一层卷积层的神经网络称为卷积神经网络。我们可以使用卷积神经网络来构建学习模型。
TensorFlow Text包含一系列与文本相关的类和操作,可用于TensorFlow 2.0。TensorFlow Text可用于预处理序列建模。
我们使用Google Colaboratory来运行下面的代码。Google Colab或Colaboratory帮助在浏览器上运行Python代码,无需任何配置,并可免费访问GPU(图形处理单元)。Colaboratory构建在Jupyter Notebook之上。
Estimator是TensorFlow对完整模型的高级表示。它旨在实现轻松扩展和异步训练。
我们将使用tf.estimator API训练一个逻辑回归模型。该模型用作其他算法的基线。我们使用泰坦尼克号数据集,目标是根据性别、年龄、等级等特征预测乘客的生存情况。
示例
print("Sample data is being displayed") print(dftrain.head()) print("The metadata about data is being displayed") print(dftrain.describe()) print("The dimensions of the data is being displayed") print(dftrain.shape[0], dfeval.shape[0])
代码来源 −https://tensorflowcn.cn/tutorials/estimator/linear
输出
Sample data is being displayed sex age n_siblings_spouses parch ... class deck embark_town alone 0 male 22.0 1 0 ... Third unknown Southampton n 1 female 38.0 1 0 ... First C Cherbourg n 2 female 26.0 0 0 ... Third unknown Southampton y 3 female 35.0 1 0 ... First C Southampton n 4 male 28.0 0 0 .. Third unknown Queenstown y [5 rows x 9 columns] The metadata about data is being displayed age n_siblings_spouses parch fare count 627.000000 627.000000 627.000000 627.000000 mean 29.631308 0.545455 0.379585 34.385399 std 12.511818 1.151090 0.792999 54.597730 min 0.750000 0.000000 0.000000 0.000000 25% 23.000000 0.000000 0.000000 7.895800 50% 28.000000 0.000000 0.000000 15.045800 75% 35.000000 1.000000 0.000000 31.387500 max 80.000000 8.000000 5.000000 512.329200 The dimensions of the data is being displayed 627 264
解释
泰坦尼克号数据集的样本数据显示在控制台上。
`describe`方法用于提供有关数据集的元数据。
`shape`方法给出数据集的维度。