Weka - 聚类



聚类算法在整个数据集中查找相似实例的组。WEKA 支持多种聚类算法,例如 EM、FilteredClusterer、HierarchicalClusterer、SimpleKMeans 等。您应该完全理解这些算法才能充分利用 WEKA 的功能。

与分类一样,WEKA 允许您以图形方式可视化检测到的集群。为了演示聚类,我们将使用提供的 iris 数据库。该数据集包含三个类别,每个类别包含 50 个实例。每个类别指一种鸢尾花植物。

加载数据

在 WEKA explorer 中选择预处理选项卡。单击打开文件...选项,并在文件选择对话框中选择iris.arff文件。加载数据后,屏幕如下所示:

Screen Looks

您可以看到有 150 个实例和 5 个属性。属性名称列为sepallengthsepalwidthpetallengthpetalwidthclass。前四个属性为数值型,而 class 为名义型,具有 3 个不同的值。检查每个属性以了解数据库的特征。我们不会对这些数据进行任何预处理,而是直接进行模型构建。

聚类

单击聚类选项卡,将聚类算法应用于我们加载的数据。单击选择按钮。您将看到以下屏幕:

Cluster Tab

现在,选择EM作为聚类算法。在聚类模式子窗口中,选择类别到聚类评估选项,如下面的屏幕截图所示:

Clustering Algorithm

单击开始按钮处理数据。一段时间后,结果将显示在屏幕上。

接下来,让我们研究一下结果。

检查输出

数据处理的输出显示在下面的屏幕中:

Examining Output

从输出屏幕中,您可以观察到:

  • 在数据库中检测到 5 个聚类实例。

  • 聚类 0表示 setosa,聚类 1表示 virginica,聚类 2表示 versicolor,而最后两个聚类没有任何类别与之关联。

如果您向上滚动输出窗口,您还会看到一些统计数据,这些数据给出了各个检测到的聚类中每个属性的均值和标准差。这在下面给出的屏幕截图中显示:

Detected Clusters

接下来,我们将查看聚类的可视化表示。

可视化聚类

要可视化聚类,请右键单击结果列表中的EM结果。您将看到以下选项:

Clusters Result List

选择可视化聚类分配。您将看到以下输出:

Cluster Assignments

与分类一样,您会注意到正确识别和错误识别实例之间的区别。您可以通过更改 X 和 Y 轴来分析结果。您可以像分类一样使用抖动来找出正确识别实例的集中度。可视化图中的操作与您在分类中学习的操作相似。

应用层次聚类

为了演示 WEKA 的强大功能,让我们现在研究另一种聚类算法的应用。在 WEKA explorer 中,选择HierarchicalClusterer作为您的 ML 算法,如下面的屏幕截图所示:

Hierarchical Clusterer

聚类模式选择设置为类别到聚类评估,然后单击开始按钮。您将看到以下输出:

Cluster Evaluation

请注意,在结果列表中,列出了两个结果:第一个是 EM 结果,第二个是当前的 Hierarchical。同样,您可以将多个 ML 算法应用于相同的数据集并快速比较其结果。

如果您检查此算法生成的树,您将看到以下输出:

Examine Algorithm

在下一章中,您将学习关联类型的 ML 算法。

广告