Weka - 分类器
许多机器学习应用都与分类相关。例如,您可能希望将肿瘤分类为恶性或良性。您可能希望根据天气条件决定是否进行户外游戏。通常,此决定取决于天气的几个特征/条件。因此,您可能更喜欢使用树分类器来做出是否玩游戏的决定。
在本章中,我们将学习如何在天气数据上构建这样的树分类器以决定游戏条件。
设置测试数据
我们将使用上一课中预处理的天气数据文件。使用打开文件...选项在预处理选项卡下打开保存的文件,点击分类选项卡,您将看到以下屏幕 -
在您了解可用的分类器之前,让我们检查一下测试选项。您会注意到下面列出的四个测试选项 -
- 训练集
- 提供的测试集
- 交叉验证
- 百分比分割
除非您拥有自己的训练集或客户提供的测试集,否则您将使用交叉验证或百分比分割选项。在交叉验证中,您可以设置将整个数据分割的折叠次数,并在每次训练迭代期间使用。在百分比分割中,您将使用设置的分割百分比将数据分割为训练和测试。
现在,将输出类的默认play选项保留 -
接下来,您将选择分类器。
选择分类器
点击“选择”按钮并选择以下分类器 -
weka→classifiers>trees>J48
这在下面的屏幕截图中显示 -
点击开始按钮开始分类过程。一段时间后,分类结果将显示在您的屏幕上,如下所示 -
让我们检查一下屏幕右侧显示的输出。
它表示树的大小为 6。您很快就会看到树的可视化表示。在摘要中,它表示正确分类的实例为 2,错误分类的实例为 3,它还表示相对绝对误差为 110%。它还显示了混淆矩阵。对这些结果进行分析超出了本教程的范围。但是,您可以很容易地从这些结果中看出分类不可接受,您需要更多数据进行分析,以改进特征选择,重建模型,依此类推,直到您对模型的准确性满意为止。无论如何,这就是 WEKA 的全部内容。它允许您快速测试您的想法。
可视化结果
要查看结果的可视化表示,请右键单击结果列表框中的结果。屏幕上将弹出几个选项,如下所示 -
选择可视化树以获得遍历树的可视化表示,如下面的屏幕截图所示 -
选择可视化分类器错误将绘制分类结果,如下所示 -
十字表示正确分类的实例,而正方形表示错误分类的实例。在图的左下角,您会看到一个十字,表示如果outlook为晴天,则play游戏。因此,这是一个正确分类的实例。要定位实例,您可以通过滑动jitter滑块在其中引入一些抖动。
当前图是outlook与play。这些由屏幕顶部的两个下拉列表框指示。
现在,尝试在每个框中进行不同的选择,并注意 X 和 Y 轴如何变化。可以通过使用绘图右侧的水平条来实现相同的效果。每个条带代表一个属性。左键单击条带将所选属性设置为 X 轴,而右键单击将将其设置为 Y 轴。
为了更深入的分析,还提供了其他几个绘图。明智地使用它们来微调您的模型。下面显示了一个成本/收益分析图以供您快速参考。
解释这些图表中的分析超出了本教程的范围。鼓励读者复习他们对机器学习算法分析的知识。
在下一章中,我们将学习下一组机器学习算法,即聚类。