如何使用 Python Scikit-learn 生成和绘制分类数据集?


Scikit-learn 提供了 make_classification() 函数,借助该函数,我们可以绘制具有不同信息特征数量、每个类别的集群数量和类别的随机生成的分类数据集。在本教程中,我们将学习如何使用 Python Scikit-learn 生成和绘制分类数据集。

具有一个信息特征和每个类别一个集群的数据集

要生成和绘制具有一个信息特征和一个集群的分类数据集,我们可以采取以下步骤:

步骤 1 − 导入执行程序所需的库 sklearn.datasets.make_classification 和 matplotlib。

步骤 2 − 创建名为 X 和 y 的数据点,其中信息特征数量和每个类别集群数量参数都等于 1。

步骤 3 − 使用 matplotlib 库绘制数据集。

示例

在下面的示例中,我们生成并打印一个具有一个信息特征和每个类别一个集群的分类数据集。

# Importing libraries from sklearn.datasets import make_classification import matplotlib.pyplot as plt # Creating the classification dataset with one informative feature and one cluster per class X, y = make_classification(n_features=2, n_redundant=0, n_informative=1, n_clusters_per_class=1) # Plotting the dataset plt.figure(figsize=(7.50, 3.50)) plt.subplots_adjust(bottom=0.05, top=0.9, left=0.05, right=0.95) plt.subplot(111) plt.title("Classification dataset with one informative feature and one cluster per class", fontsize="12") plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=40, edgecolor="k") plt.show()

输出

它将产生以下输出:


具有两个信息特征和每个类别一个集群的数据集

要生成和绘制具有两个信息特征和每个类别一个集群的分类数据集,我们可以采取以下步骤:

步骤 1 − 导入执行程序所需的库 sklearn.datasets.make_classification 和 matplotlib。

步骤 2 − 创建名为 X 和 y 的数据点,其中信息特征数量等于 2,每个类别集群数量参数等于 1。

步骤 3 − 使用 matplotlib 库绘制数据集。

示例

在下面的示例中,我们生成并打印一个具有两个信息特征和每个类别一个集群的分类数据集。

# Importing libraries from sklearn.datasets import make_classification import matplotlib.pyplot as plt # Creating the classification dataset with two informative feature and one cluster per class X, y = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1) # Plotting the dataset plt.figure(figsize=(7.50, 3.50)) plt.subplots_adjust(bottom=0.05, top=0.9, left=0.05, right=0.95) plt.subplot(111) plt.title("Classification dataset with two informative feature and one cluster per class", fontsize="12") plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=40, edgecolor="k") plt.show()

输出

它将产生以下输出:


具有两个信息特征和每个类别两个集群的数据集

要生成和绘制具有两个信息特征和每个类别两个集群的分类数据集,我们可以采取以下步骤:

步骤 1 − 导入执行程序所需的库 sklearn.datasets.make_classification 和 matplotlib。

步骤 2 − 创建名为 X 和 y 的数据点,其中信息特征数量和每个类别集群数量参数都等于 2。

步骤 3 − 使用 matplotlib 库绘制数据集。

示例

在下面的示例中,我们生成并打印一个具有两个信息特征和每个类别两个集群的分类数据集。

# Importing libraries from sklearn.datasets import make_classification import matplotlib.pyplot as plt # Creating the classification dataset with two informative feature and two cluster per class X, y = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=2) # Plotting the dataset plt.figure(figsize=(7.50, 3.50)) plt.subplots_adjust(bottom=0.05, top=0.9, left=0.05, right=0.95) plt.subplot(111) plt.title("Classification dataset with two informative feature and two cluster per class", fontsize="12") plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=40, edgecolor="k") plt.show()

输出

它将产生以下输出:


多类分类数据集

要生成和绘制具有两个信息特征和每个类别一个集群的多类分类数据集,我们可以采取以下步骤:

步骤 1 − 导入执行程序所需的库 sklearn.datasets.make_classification 和 matplotlib。

步骤 2 − 创建名为 X 和 y 的数据点,其中信息特征数量等于 2,每个类别集群数量参数等于 1,类别数量参数等于 3。

步骤 3 − 使用 matplotlib 库绘制数据集。

示例

在下面的示例中,我们生成并打印一个具有两个信息特征和每个类别一个集群的多类分类数据集。

# Importing libraries from sklearn.datasets import make_classification import matplotlib.pyplot as plt # Creating the multi-class classification dataset with two informative feature and one cluster per class X, y = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1, n_classes=3) # Plotting the dataset plt.figure(figsize=(7.50, 3.50)) plt.subplots_adjust(bottom=0.05, top=0.9, left=0.05, right=0.95) plt.subplot(111) plt.title("Multi-class classification dataset with two informative feature and one cluster per class", fontsize="12") plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=40, edgecolor="k") plt.show()

输出

它将产生以下输出:


更新于: 2022年10月4日

3K+ 阅读量

开启你的 职业生涯

通过完成课程获得认证

立即开始
广告