419 次浏览
scipy.cluster.vq() 有两种方法可以实现 k 均值聚类,即 kmeans() 和 kmeans2()。这两种方法的工作原理存在显著差异。让我们来了解一下 -scipy.cluster.vq.kmeans(obs, k_or_guess, iter=20, thresh=1e-05, check_finite=True)- kmeans() 方法通过对一组观测向量执行 k 均值算法来形成 k 个聚类。为了确定质心的稳定性,此方法使用阈值来比较观测值与其对应质心之间平均欧几里得距离的变化。此方法的输出是一个代码簿,用于映射质心到代码,反之亦然。scipy.cluster.vq.kmeans2(data, k, iter=10, thresh=1e-05, minit='random', missing='warn', check_finite=True)- ... 阅读更多
163 次浏览
scipy.cluster.vq.kmeans2(data, k, iter=10, thresh=1e-05, minit='random', missing='warn', check_finite=True)- kmeans2() 方法通过执行 k 均值算法将一组观测向量分类为 k 个聚类。为了检查收敛性,kmeans2() 方法不使用阈值。它具有其他参数来决定质心初始化方法、处理空聚类以及验证输入矩阵是否仅包含有限数字。以下是其参数的详细解释 -参数data- ndarray它是一个 'M' 行 'N' 列的数组,其中 M 个观测值在 N 维空间中。k- int 或 ndarray此参数表示要形成的聚类数量和质心 ... 阅读更多
148 次浏览
scipy.cluster.vq.kmeans(obs, k_or_guess, iter=20, thresh=1e- 05, check_finite=True) 方法通过对一组观测向量执行 k 均值算法来形成 k 个聚类。为了确定质心的稳定性,此方法使用阈值来比较观测值与其对应质心之间平均欧几里得距离的变化。此方法的输出是一个代码簿,用于映射质心到代码,反之亦然。以下是其参数的详细解释 -参数obs- ndarray它是一个 'M' 行 'N' 列的数组,其中每一行是一个观测值,列是在每次观测期间看到的特征。在使用之前,这些特征 ... 阅读更多
147 次浏览
在实现 k 均值算法之前,scipy.cluster.vq.vq(obs, code_book, check_finite = True) 用于从代码簿中为每个观测值分配代码。它首先将 'M' 行 'N' 列的 obs 数组中的每个观测向量与代码簿中的质心进行比较。比较完成后,它将代码分配给最接近的质心。它需要 obs 数组中具有单位方差的特征,我们可以通过将它们传递给 scipy.cluster.vq.whiten(obs, check_finite = True) 函数来实现。参数以下是 scipy.cluster.vq.vq(obs, code_book, check_finite = True) 函数的参数 -obs- ndarray它是一个 'M' 行 'N' 列的数组,其中每一行是一个观测值,... 阅读更多
105 次浏览
在实现 k 均值算法之前,重新缩放观测集的每个特征维度总是有益的。函数 scipy.cluster.vq.whiten(obs, check_finite = True) 用于此目的。为了使其具有单位方差,它将观测值的每个特征维度除以其标准差 (SD)。参数以下是 scipy.cluster.vq.whiten(obs, check_finite = True) 函数的参数 -obs- ndarray它是一个要重新缩放的数组,其中每一行是一个观测值,列是在每次观测期间看到的特征。以下给出了示例 -obs = [[ 1., 1., 1.], [ 2., 2., 2.], ... 阅读更多
145 次浏览
如果您不确定如何在 NumPy 和 SciPy 中使用特定函数或变量,您可以使用 '?' 调用其文档。在 Jupyter notebook 和 IPython shell 中,我们可以如下调用文档 -示例如果您想知道 NumPy sin() 函数,可以使用以下代码 -import numpy as np np.sin?输出我们将获得有关 sin() 函数的详细信息,如下所示 -我们还可以使用双问号 (??) 查看源代码,如下所示 -import numpy as np np.sin??同样,如果您想查看 ... 阅读更多
721 次浏览
我们将在此处使用的皮马印第安人糖尿病数据集最初来自美国国家糖尿病、消化和肾脏疾病研究所。基于以下诊断因素,此数据集可用于将患者置于糖尿病聚类或非糖尿病聚类中 -怀孕次数葡萄糖血压皮肤厚度胰岛素BMI糖尿病谱系函数年龄您可以从 Kaggle 网站获取此数据集的 .CSV 格式。示例以下示例将使用 SciPy 库从皮马印第安人糖尿病数据集中创建两个聚类,即糖尿病和非糖尿病。#导入所需的 Python 库:import matplotlib.pyplot as plt import numpy as np from scipy.cluster.vq import whiten, kmeans, vq ... 阅读更多
是的,我们还可以通过将随机数据分成 3 个聚类来实现 K 均值聚类算法。让我们通过以下示例来了解 -示例#导入所需的 Python 库:import numpy as np from numpy import vstack, array from numpy.random import rand from scipy.cluster.vq import whiten, kmeans, vq from pylab import plot, show #随机数据生成:data = vstack((rand(200, 2) + array([.5, .5]), rand(150, 2))) #数据标准化:data = whiten(data) # 使用 K = 3 计算 K 均值(3 个聚类)质心,mean_value = kmeans(data, 3) print("代码簿:", centroids, "") print("欧几里得距离的均值:", mean_value.round(4)) ... 阅读更多
360 次浏览
K 均值聚类算法,也称为扁平聚类,是一种在未标记数据集中计算聚类和聚类中心(质心)的方法。它会迭代直到我们找到最佳质心。我们可能会将聚类视为一组数据点,其点间距离小于到该聚类外部点的距离。从未标记数据中识别的聚类数量在 K 均值算法中用 'K' 表示。给定一组初始的 K 个中心,可以使用 SciPy 库通过执行以下步骤来完成 K 均值聚类算法 -步骤 1- 数据点 ... 阅读更多
144 次浏览
聚类是众多实用无监督机器学习方法中的一种。它用于查找输入数据样本之间的关系模式和相似性。在找到这些模式后,无监督算法将具有相似性的数据样本聚类到组中,如下面的图表所示 -异常检测、图像分割、医学影像、社交网络分析和市场细分是一些常见的聚类应用。K均值和层次聚类是两种最常见的聚类形式。为了实现聚类,SciPy 为我们提供了一个聚类包 (scipy.cluster),该包进一步包含以下两个模块 -scipy.cluster.vq 模块 − 此 SciPy 模块提供了用于 k 均值... 阅读更多