419 次查看
scipy.cluster.vq() 有两种方法可以实现 k 均值聚类,分别是 kmeans() 和 kmeans2()。这两种方法的工作方式存在显着差异。让我们了解一下 -scipy.cluster.vq.kmeans(obs, k_or_guess, iter=20, thresh=1e-05, check_finite=True)- kmeans() 方法通过对一组观测向量执行 k 均值算法来形成 k 个聚类。为了确定质心的稳定性,此方法使用阈值来比较观测值与其对应质心之间平均欧氏距离的变化。此方法的输出是将质心映射到代码的代码簿,反之亦然。scipy.cluster.vq.kmeans2(data, k, iter=10, thresh=1e-05, minit='random', missing='warn', check_finite=True)- ... 阅读更多
163 次查看
scipy.cluster.vq.kmeans2(data, k, iter=10, thresh=1e-05, minit='random', missing='warn', check_finite=True)- kmeans2() 方法通过执行 k 均值算法将一组观测向量分类为 k 个聚类。为了检查收敛性,kmeans2() 方法不使用阈值。它具有其他参数来决定质心初始化方法、处理空聚类以及验证输入矩阵是否仅包含有限数字。以下是其参数的详细说明 -参数data- ndarray它是一个 'M'x'N' 数组,其中 M 个观测值在 N 维。k- int 或 ndarray此参数表示要形成的聚类数量和质心 ... 阅读更多
148 次查看
scipy.cluster.vq.kmeans(obs, k_or_guess, iter=20, thresh=1e- 05, check_finite=True) 方法通过对一组观测向量执行 k 均值算法来形成 k 个聚类。为了确定质心的稳定性,此方法使用阈值来比较观测值与其对应质心之间平均欧氏距离的变化。此方法的输出是将质心映射到代码的代码簿,反之亦然。以下是其参数的详细说明 -参数obs- ndarray它是一个 'M'x'N' 数组,其中每一行都是一个观测值,列是在每次观测期间看到的特征。在使用之前,这些特征 ... 阅读更多
147 次查看
在实现 k 均值算法之前,scipy.cluster.vq.vq(obs, code_book, check_finite = True) 用于从代码簿中为每个观测值分配代码。它首先将 'M'x'N' obs 数组中的每个观测向量与代码簿中的质心进行比较。比较完成后,它将代码分配给最接近的质心。它需要 obs 数组中具有单位方差的特征,我们可以通过将它们传递给 scipy.cluster.vq.whiten(obs, check_finite = True) 函数来实现。参数以下是函数 scipy.cluster.vq.vq(obs, code_book, check_finite = True) 的参数 -obs- ndarray它是一个 'M'x'N' 数组,其中每一行都是一个观测值,并且 ... 阅读更多
105 次查看
在实现 k 均值算法之前,重新缩放观测集的每个特征维度始终是有益的。函数 scipy.cluster.vq.whiten(obs, check_finite = True) 用于此目的。为了使其具有单位方差,它将观测值的每个特征维度除以其标准差 (SD)。参数以下是函数 scipy.cluster.vq.whiten(obs, check_finite = True) 的参数 -obs- ndarray它是一个要重新缩放的数组,其中每一行都是一个观测值,列是在每次观测期间看到的特征。下面给出了示例 -obs = [[ 1., 1., 1.], [ 2., 2., 2.], ... 阅读更多
145 次查看
如果您不确定如何在 NumPy 和 SciPy 中使用特定函数或变量,您可以使用 '?' 调用文档。在 Jupyter notebook 和 IPython shell 中,我们可以如下调用文档 -示例如果您想知道 NumPy sin() 函数,可以使用以下代码 -import numpy as np np.sin?输出我们将获得有关 sin() 函数的详细信息,如下所示 -我们还可以使用双问号 (??) 查看源代码,如下所示 -import numpy as np np.sin??同样,如果您想查看 ... 阅读更多
721 次查看
我们将在此处使用的皮马印第安人糖尿病数据集最初来自美国国家糖尿病、消化和肾脏疾病研究所。根据以下诊断因素,此数据集可用于将患者置于糖尿病或非糖尿病聚类中 -妊娠葡萄糖血压皮肤厚度胰岛素BMI糖尿病谱系函数年龄您可以在 Kaggle 网站上以 .CSV 格式获取此数据集。示例以下示例将使用 SciPy 库从皮马印第安人糖尿病数据集中创建两个聚类,即糖尿病和非糖尿病。#导入所需的 Python 库:import matplotlib.pyplot as plt import numpy as np from scipy.cluster.vq import whiten, kmeans, vq ... 阅读更多
是的,我们还可以通过将随机数据分成 3 个聚类来实现 K 均值聚类算法。让我们通过以下示例了解一下 -示例#导入所需的 Python 库:import numpy as np from numpy import vstack, array from numpy.random import rand from scipy.cluster.vq import whiten, kmeans, vq from pylab import plot, show #随机数据生成:data = vstack((rand(200, 2) + array([.5, .5]), rand(150, 2))) #规范化数据:data = whiten(data) # 使用 K = 3 计算 K 均值(3 个聚类)质心,均值 = kmeans(data, 3) print("代码簿:", centroids, "") print("欧氏距离的均值:", mean_value.round(4)) ... 阅读更多
360 次查看
K 均值聚类算法,也称为扁平聚类,是一种在未标记数据集中计算聚类和聚类中心(质心)的方法。它会迭代直到找到最佳质心。我们可能认为聚类是一组数据点,其点间距离与该聚类外部的点距离相比很小。从未标记数据中识别的聚类数量在 K 均值算法中用 'K' 表示。给定一组初始的 K 个中心,可以使用 SciPy 库通过执行以下步骤来完成 K 均值聚类算法 -步骤 1- 数据点 ... 阅读更多
144 次查看
聚类是众多非常有用的无监督机器学习方法之一。它用于查找输入数据样本之间的关系模式和相似性。在找到这些模式后,无监督算法会将具有相似性的数据样本聚类到组中,如下图所示 -异常检测、图像分割、医学影像、社交网络分析和市场细分是一些常见的聚类应用。K均值和层次聚类是两种最常见的聚类形式。为了实现聚类,SciPy 为我们提供了一个聚类包(scipy.cluster),它进一步包含以下两个模块:scipy.cluster.vq 模块 - 此 SciPy 模块提供了用于 k 均值... 阅读更多