如何使用TensorFlow清洗数据,并利用Auto MPG数据集预测燃油效率?
TensorFlow是谷歌提供的机器学习框架。它是一个开源框架,与Python结合使用,可以实现算法、深度学习应用程序等等。
可以使用以下代码行在Windows上安装“tensorflow”包:
pip install tensorflow
张量是TensorFlow中使用的数据结构。它有助于连接数据流图中的边。这个数据流图被称为“数据流图”。张量只不过是多维数组或列表。
回归问题的目的是预测连续或离散变量的输出,例如价格、概率、是否下雨等等。
我们使用的数据集称为“Auto MPG”数据集。它包含1970年代和1980年代汽车的燃油效率。它包括重量、马力、排量等等属性。我们需要根据这些数据预测特定车辆的燃油效率。
我们使用Google Colaboratory运行以下代码。Google Colab或Colaboratory帮助在浏览器上运行Python代码,无需任何配置,并且可以免费访问GPU(图形处理单元)。Colaboratory构建在Jupyter Notebook之上。
以下代码片段将展示如何使用TensorFlow清洗数据,并利用Auto MPG数据集预测燃油效率:
示例
print("Data cleaning has begun") dataset.isna().sum() dataset = dataset.dropna() dataset['Origin'] = dataset['Origin'].map({1: 'USA', 2: 'Europe', 3: 'Japan'}) print("Data cleaning complete!") dataset = pd.get_dummies(dataset, prefix='', prefix_sep='') print("A sample of dataset after data cleaning :") dataset.head(4)
代码来源 − https://tensorflowcn.cn/tutorials/keras/regression
输出
Data cleaning has begun Data cleaning complete! A sample of dataset after data cleaning −
MPG | 气缸数 | 排量 | 马力 | 重量 | 加速 | 车型年份 | 欧洲 | 日本 | 美国 | |
---|---|---|---|---|---|---|---|---|---|---|
0 | 18.0 | 8 | 307.0 | 130.0 | 3504.0 | 12.0 | 70 | 0 | 0 | 1 |
1 | 15.0 | 8 | 350.0 | 165.0 | 3693.0 | 11.5 | 70 | 0 | 0 | 1 |
2 | 18.0 | 8 | 318.0 | 150.0 | 3436.0 | 11.0 | 70 | 0 | 0 | 1 |
3 | 16.0 | 8 | 304.0 | 150.0 | 3433.0 | 12.0 | 70 | 0 | 0 | 1 |
解释
数据清洗首先删除数据集中存在的“nan”值。
使用“map”函数将标签映射到列名。
数据清洗后,数据集的样本显示在控制台上。
广告