如何使用Python中的scikit-learn库从特征向量中消除均值?


数据预处理是指数据清洗、去除无效数据、噪声,用相关值替换数据等等。

数据预处理基本上是指将从各种资源或单个资源收集的所有数据整理成通用格式或统一数据集(取决于数据类型)的任务。一个步骤的输出成为下一步的输入,依此类推。

为了获得特定结果,可能需要从输入数据中去除均值。让我们了解如何使用scikit-learn库来实现这一点。

示例

import numpy as np
from sklearn import preprocessing
input_data = np.array([
[34.78, 31.9, -65.5],
[-16.5, 2.45, -83.5],
[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
print("Mean value is : ", input_data.mean(axis=0))
print("Standard deviation value is : ", input_data.std(axis=0))
data_scaled = preprocessing.scale(input_data)
print("Mean value has been removed ", data_scaled.mean(axis=0))
print("Standard deviation has been removed ", data_scaled.std(axis=0))

输出

Mean value is : [ 6.17 -12.8125 -39.8 ]
Standard deviation value is : [18.4708067 45.03642047 50.30754615]
Mean value has been removed [-2.60208521e-18 -8.32667268e-17 -1.11022302e-16]
Standard deviation has been removed [1. 1. 1.]

解释

  • 导入所需的包。

  • 使用Numpy库生成输入数据。

  • 计算均值和标准差。

  • 它们显示在控制台上。

  • 使用‘data_scaled’函数从数据中去除均值和标准差。

  • 去除均值和标准差后的数据显示在控制台上。

更新于:2020年12月11日

318 次浏览

启动您的职业生涯

完成课程获得认证

开始
广告