如何使用 TensorFlow 和 Auto MPG 数据集拆分和检查数据以预测燃油效率?


Tensorflow 是 Google 提供的一个机器学习框架。它是一个开源框架,与 Python 结合使用以实现算法、深度学习应用程序等等。它用于研究和生产目的。它具有有助于快速执行复杂数学运算的优化技术。这是因为它使用 NumPy 和多维数组。这些多维数组也称为“张量”。该框架支持使用深度神经网络。它具有高度可扩展性,并附带许多流行的数据集。

张量是 TensorFlow 中使用的数据结构。它有助于连接流程图中的边。此流程图称为“数据流图”。张量不过是多维数组或列表。

回归问题的目标是预测连续或离散变量的输出,例如价格、概率、是否会下雨等等。

我们使用的数据集称为“Auto MPG”数据集。它包含 1970 年代和 1980 年代汽车的燃油效率。它包括重量、马力、排量等属性。有了这些,我们需要预测特定车辆的燃油效率。

我们使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 帮助在浏览器上运行 Python 代码,并且需要零配置和免费访问 GPU(图形处理单元)。Colaboratory 建立在 Jupyter Notebook 之上。

以下是代码片段,我们将看到如何使用 TensorFlow 和 Auto MPG 数据集拆分和检查数据以预测燃油效率 -

示例

print("Splitting the training and testing dataset")
train_dataset = dataset.sample(frac=0.7, random_state=0)
test_dataset = dataset.drop(train_dataset.index)

print("Plotting the training data as a visualization")
sns.pairplot(train_dataset[['MPG', 'Cylinders', 'Displacement', 'Weight']], diag_kind='kde')

print("Understanding the statistics associated with the data")
train_dataset.describe().transpose()

代码来源 https://tensorflowcn.cn/tutorials/keras/regression

输出

Splitting the training and testing dataset
Plotting the training data as a visualization
Understanding the statistics associated with the data

解释

  • 数据清理完成后,数据将被拆分为训练数据集和测试数据集。

  • 70% 的数据用于训练,其余 30% 用于测试。

  • 此训练数据使用 seaborn 包在控制台上可视化。

  • 使用“describe”函数显示数据的统计信息,例如计数、均值、中位数等等。

更新于: 2021 年 1 月 20 日

125 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告