如何使用 TensorFlow 和 Auto MPG 数据集拆分和检查数据以预测燃油效率?
Tensorflow 是 Google 提供的一个机器学习框架。它是一个开源框架,与 Python 结合使用以实现算法、深度学习应用程序等等。它用于研究和生产目的。它具有有助于快速执行复杂数学运算的优化技术。这是因为它使用 NumPy 和多维数组。这些多维数组也称为“张量”。该框架支持使用深度神经网络。它具有高度可扩展性,并附带许多流行的数据集。
张量是 TensorFlow 中使用的数据结构。它有助于连接流程图中的边。此流程图称为“数据流图”。张量不过是多维数组或列表。
回归问题的目标是预测连续或离散变量的输出,例如价格、概率、是否会下雨等等。
我们使用的数据集称为“Auto MPG”数据集。它包含 1970 年代和 1980 年代汽车的燃油效率。它包括重量、马力、排量等属性。有了这些,我们需要预测特定车辆的燃油效率。
我们使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 帮助在浏览器上运行 Python 代码,并且需要零配置和免费访问 GPU(图形处理单元)。Colaboratory 建立在 Jupyter Notebook 之上。
以下是代码片段,我们将看到如何使用 TensorFlow 和 Auto MPG 数据集拆分和检查数据以预测燃油效率 -
示例
print("Splitting the training and testing dataset") train_dataset = dataset.sample(frac=0.7, random_state=0) test_dataset = dataset.drop(train_dataset.index) print("Plotting the training data as a visualization") sns.pairplot(train_dataset[['MPG', 'Cylinders', 'Displacement', 'Weight']], diag_kind='kde') print("Understanding the statistics associated with the data") train_dataset.describe().transpose()
代码来源 − https://tensorflowcn.cn/tutorials/keras/regression
输出
Splitting the training and testing dataset Plotting the training data as a visualization Understanding the statistics associated with the data
解释
数据清理完成后,数据将被拆分为训练数据集和测试数据集。
70% 的数据用于训练,其余 30% 用于测试。
此训练数据使用 seaborn 包在控制台上可视化。
使用“describe”函数显示数据的统计信息,例如计数、均值、中位数等等。
广告