如何使用TensorFlow和Estimators探索泰坦尼克号数据集?


可以使用TensorFlow的estimator,通过`head`方法、`describe`方法和`shape`方法来探索泰坦尼克号数据集。`head`方法显示数据集的前几行,`describe`方法提供有关数据集的信息,例如列名、类型、均值、方差、标准差等等。`shape`方法给出数据的维度。

阅读更多: 什么是TensorFlow以及Keras如何与TensorFlow一起创建神经网络?

我们将使用Keras Sequential API,它有助于构建一个顺序模型,用于处理简单的层堆栈,其中每一层只有一个输入张量和一个输出张量。

包含至少一层卷积层的神经网络称为卷积神经网络。我们可以使用卷积神经网络来构建学习模型。

TensorFlow Text包含一系列与文本相关的类和操作,可用于TensorFlow 2.0。TensorFlow Text可用于预处理序列建模。

我们使用Google Colaboratory来运行下面的代码。Google Colab或Colaboratory帮助在浏览器上运行Python代码,无需任何配置,并可免费访问GPU(图形处理单元)。Colaboratory构建在Jupyter Notebook之上。

Estimator是TensorFlow对完整模型的高级表示。它旨在实现轻松扩展和异步训练。

我们将使用tf.estimator API训练一个逻辑回归模型。该模型用作其他算法的基线。我们使用泰坦尼克号数据集,目标是根据性别、年龄、等级等特征预测乘客的生存情况。

示例

print("Sample data is being displayed")
print(dftrain.head())
print("The metadata about data is being displayed")
print(dftrain.describe())
print("The dimensions of the data is being displayed")
print(dftrain.shape[0], dfeval.shape[0])

代码来源 −https://tensorflowcn.cn/tutorials/estimator/linear

输出

Sample data is being displayed
   sex    age  n_siblings_spouses parch ... class deck embark_town alone
0  male   22.0  1 0   ... Third unknown Southampton      n
1  female 38.0  1 0   ... First C Cherbourg              n
2  female 26.0  0 0   ... Third unknown Southampton      y
3  female 35.0  1 0   ... First C Southampton            n
4  male   28.0  0 0   .. Third unknown Queenstown        y
[5 rows x 9 columns]
The metadata about data is being displayed
        age    n_siblings_spouses  parch       fare
count  627.000000  627.000000   627.000000   627.000000
mean   29.631308     0.545455     0.379585    34.385399
std    12.511818     1.151090     0.792999    54.597730
min     0.750000     0.000000     0.000000     0.000000
25%    23.000000     0.000000     0.000000     7.895800
50%    28.000000     0.000000     0.000000    15.045800
75%    35.000000     1.000000     0.000000    31.387500
max    80.000000     8.000000     5.000000   512.329200
The dimensions of the data is being displayed
627 264

解释

  • 泰坦尼克号数据集的样本数据显示在控制台上。

  • `describe`方法用于提供有关数据集的元数据。

  • `shape`方法给出数据集的维度。

更新于:2021年2月22日

83 次浏览

启动你的职业生涯

通过完成课程获得认证

开始
广告