如何使用 Python Scikit-learn 创建样本数据集?


在本教程中,我们将学习如何使用 Python Scikit-learn 创建样本数据集。

Scikit-learn 有各种内置数据集,我们可以轻松地将其用于我们的机器学习模型,但有时我们需要一些玩具数据集。为此,scikit-learn Python 库为我们提供了一个很棒的样本数据集生成器。

使用 Scikit-Learn 创建样本 Blob 数据集

要创建样本 Blob 数据集,我们需要导入sklearn.datsets.make_blobs,它非常快速且易于使用。

示例

在下面给出的示例中,让我们看看如何使用此库来创建样本 Blob 数据集。

# Importing libraries from sklearn.datasets import make_blobs # Matplotlib for plotting the dataset blobs from matplotlib import pyplot as plt from matplotlib import style # Set the figure size plt.rcParams["figure.figsize"] = [7.50, 3.50] plt.rcParams["figure.autolayout"] = True # Creating Blob Test Datasets using sklearn.datasets.make_blobs style.use("Solarize_Light2") X, y = make_blobs(n_samples = 500, centers = 3, cluster_std = 1, n_features = 2) plt.scatter(X[:, 0], X[:, 1], s = 20, color = 'red') plt.xlabel("X-axis") plt.ylabel("Y-axis") plt.show()

输出

它将产生以下输出:

以上输出显示它从 500 个样本中创建了 3 个 Blob。

使用 Scikit-Learn 创建样本月牙形数据集

要创建样本月牙形数据集,我们需要导入sklearn.datsets.male_moons,它非常快速且易于使用。

示例

在下面给出的示例中,让我们看看如何使用此库来创建样本月牙形数据集。

# Importing libraries from sklearn.datasets import make_moons # Matplotlib for plotting the moon dataset from matplotlib import pyplot as plt from matplotlib import style # Set the figure size plt.rcParams["figure.figsize"] = [7.16, 3.50] plt.rcParams["figure.autolayout"] = True # Creating Moon Test Datasets using sklearn.datasets.make_moon style.use("fivethirtyeight") X, y = make_moons(n_samples = 1500, noise = 0.1) plt.scatter(X[:, 0], X[:, 1], s = 15, color ='red') plt.xlabel("X-axis") plt.ylabel("Y-axis") plt.show()

输出

它将产生以下输出

Learn Python in-depth with real-world projects through our Python certification course. Enroll and become a certified expert to boost your career.

使用 Scikit-Learn 创建样本圆形数据集

要创建样本圆形数据集,我们需要导入 sklearn.datsets.make_circles,它非常快速且易于使用。

示例

在下面给出的示例中,让我们看看如何使用此库来创建样本圆形数据集。

# Importing libraries from sklearn.datasets import make_circles # Matplotlib for plotting the circle dataset from matplotlib import pyplot as plt from matplotlib import style # Set the figure size plt.rcParams["figure.figsize"] = [7.16, 3.50] plt.rcParams["figure.autolayout"] = True # Creating the circle Test Datasets using sklearn.datasets.make_circles style.use("ggplot") X, y = make_circles(n_samples = 500, noise = 0.02) plt.scatter(X[:, 0], X[:, 1], s = 20, color ='red') plt.xlabel("X-axis") plt.ylabel("Y-axis") plt.show()

输出

它将产生以下输出:


更新于: 2022年10月4日

711 次查看

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告