如何使用TensorFlow清洗数据,并利用Auto MPG数据集预测燃油效率?


TensorFlow是谷歌提供的机器学习框架。它是一个开源框架,与Python结合使用,可以实现算法、深度学习应用程序等等。

可以使用以下代码行在Windows上安装“tensorflow”包:

pip install tensorflow

张量是TensorFlow中使用的数据结构。它有助于连接数据流图中的边。这个数据流图被称为“数据流图”。张量只不过是多维数组或列表。

回归问题的目的是预测连续或离散变量的输出,例如价格、概率、是否下雨等等。

我们使用的数据集称为“Auto MPG”数据集。它包含1970年代和1980年代汽车的燃油效率。它包括重量、马力、排量等等属性。我们需要根据这些数据预测特定车辆的燃油效率。

我们使用Google Colaboratory运行以下代码。Google Colab或Colaboratory帮助在浏览器上运行Python代码,无需任何配置,并且可以免费访问GPU(图形处理单元)。Colaboratory构建在Jupyter Notebook之上。

以下代码片段将展示如何使用TensorFlow清洗数据,并利用Auto MPG数据集预测燃油效率:

示例

print("Data cleaning has begun")
dataset.isna().sum()
dataset = dataset.dropna()
dataset['Origin'] = dataset['Origin'].map({1: 'USA', 2: 'Europe', 3: 'Japan'})

print("Data cleaning complete!")
dataset = pd.get_dummies(dataset, prefix='', prefix_sep='')

print("A sample of dataset after data cleaning :")
dataset.head(4)

代码来源 − https://tensorflowcn.cn/tutorials/keras/regression

输出

Data cleaning has begun
Data cleaning complete!
A sample of dataset after data cleaning −



MPG气缸数排量马力重量加速车型年份欧洲日本美国
018.08307.0130.03504.012.070001
115.08350.0165.03693.011.570001
218.08318.0150.03436.011.070001
316.08304.0150.03433.012.070001

解释

  • 数据清洗首先删除数据集中存在的“nan”值。

  • 使用“map”函数将标签映射到列名。

  • 数据清洗后,数据集的样本显示在控制台上。

更新于:2021年1月20日

134 次浏览

启动您的职业生涯

完成课程后获得认证

开始学习
广告