如何在 Python 中将 Scikit-learn 的 IRIS 数据集转换为 2 特征数据集?
Iris(鸢尾花)是一个多元的花卉数据集,是 Python scikit-learn 中最实用的数据集之一。它包含 3 个类别,每个类别 50 个实例,包含三种鸢尾花物种(分别为 Iris setosa,Iris virginica 和 Iris versicolor)的花萼和花瓣部分的测量值。此外,Iris 数据集还包含这三个物种中每个物种的 50 个实例,并包含四个特征,分别是 sepal_length(厘米),sepal_width(厘米),petal_length(厘米),petal_width(厘米)。
我们可以使用主成分分析 (PCA) 将 IRIS 数据集转换为具有 2 个特征的新特征空间。
步骤
我们可以按照以下步骤使用 Python 中的 PCA 将 IRIS 数据集转换为 2 特征数据集:
步骤 1 − 首先,从 scikit-learn 中导入必要的包。我们需要导入 datasets 和 decomposition 包。
步骤 2 − 加载 IRIS 数据集。
步骤 3 − 打印有关数据集的详细信息。
步骤 4 − 初始化主成分分析 (PCA) 并应用 fit() 函数以拟合数据。
步骤 5 − 将数据集转换为新维度,即 2 特征数据集。
示例
在下面的示例中,我们将使用上述步骤将 scikit-learn 的 IRIS 植物数据集使用 PCA 转换为 2 个特征。
# Importing the necessary packages from sklearn import datasets from sklearn import decomposition # Load iris plant dataset iris = datasets.load_iris() # Print details about the dataset print('Features names : '+str(iris.feature_names)) print('\n') print('Features size : '+str(iris.data.shape)) print('\n') print('Target names : '+str(iris.target_names)) print('\n') X_iris, Y_iris = iris.data, iris.target # Initialize PCA and fit the data pca_2 = decomposition.PCA(n_components=2) pca_2.fit(X_iris) # Transforming iris data to new dimensions(with 2 features) X_iris_pca2 = pca_2.transform(X_iris) # Printing new dataset print('New Dataset size after transformations: ', X_iris_pca2.shape)
输出
它将产生以下输出:
Features names : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] Features size : (150, 4) Target names : ['setosa' 'versicolor' 'virginica'] New Dataset size after transformations: (150, 2)
如何将 Iris 数据集转换为 3 特征数据集?
我们可以使用一种称为主成分分析 (PCA) 的统计方法将 Iris 数据集转换为具有 3 个特征的新特征空间。PCA 基本上通过分析原始数据集的特征将数据线性投影到新的特征空间。
PCA 背后的主要概念是选择数据的“主要”特征并基于它们构建特征。它将为我们提供一个新数据集,该数据集尺寸较小,但包含与原始数据集相同的信息。
示例
在下面的示例中,我们将使用 PCA(初始化为 3 个组件)转换 scikit-learn 的 Iris 植物数据集。
# Importing the necessary packages from sklearn import datasets from sklearn import decomposition # Load iris plant dataset iris = datasets.load_iris() # Print details about the dataset print('Features names : '+str(iris.feature_names)) print('\n') print('Features size : '+str(iris.data.shape)) print('\n') print('Target names : '+str(iris.target_names)) print('\n') print('Target size : '+str(iris.target.shape)) X_iris, Y_iris = iris.data, iris.target # Initialize PCA and fit the data pca_3 = decomposition.PCA(n_components=3) pca_3.fit(X_iris) # Transforming iris data to new dimensions(with 2 features) X_iris_pca3 = pca_3.transform(X_iris) # Printing new dataset print('New Dataset size after transformations : ', X_iris_pca3.shape) print('\n') # Getting the direction of maximum variance in data print("Components : ", pca_3.components_) print('\n') # Getting the amount of variance explained by each component print("Explained Variance:",pca_3.explained_variance_) print('\n') # Getting the percentage of variance explained by each component print("Explained Variance Ratio:",pca_3.explained_variance_ratio_) print('\n') # Getting the singular values for each component print("Singular Values :",pca_3.singular_values_) print('\n') # Getting estimated noise covariance print("Noise Variance :",pca_3.noise_variance_)
输出
它将产生以下输出:
Features names : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] Features size : (150, 4) Target names : ['setosa' 'versicolor' 'virginica'] Target size : (150,) New Dataset size after transformations : (150, 3) Components : [[ 0.36138659 -0.08452251 0.85667061 0.3582892 ] [ 0.65658877 0.73016143 -0.17337266 -0.07548102] [-0.58202985 0.59791083 0.07623608 0.54583143]] Explained Variance: [4.22824171 0.24267075 0.0782095 ] Explained Variance Ratio: [0.92461872 0.05306648 0.01710261] Singular Values : [25.09996044 6.01314738 3.41368064] Noise Variance : 0.02383509297344944