什么是Weka数据挖掘?


Weka 是一套用于数据挖掘服务的机器学习算法。这些算法可以直接应用于数据集,也可以从您自己的 Java 程序中使用。它包括用于数据预处理、分类、回归、聚类、关联规则和可视化的工具。它也适用于生成新的机器学习方案。

使用 Weka 的一种方法是将学习方法应用于数据集并分析其输出以了解更多关于记录的信息。第二种方法是需要学习的模型来对新实例进行预测。

第三种方法是使用多个学习器并比较它们的性能以选择一个用于预测。在交互式 Weka 界面中,它可以从菜单中选择所需的学习方法。几种方法具有可调参数,可以通过属性表或对象编辑器创建。一个通用的计算结构用于计算所有分类器的性能。

它可以显示如何使用不同的过滤器,列出过滤算法并描述其参数。Weka 还包括学习关联规则、聚类未指定类值的的数据以及选择数据中相关属性的算法的实现。

使用 Weka 的最简单方法是通过一个称为 Explorer 的图形用户界面。这可以通过菜单选择和表单填写访问其一些功能。例如,它可以快速从 ARFF 文档(或电子表格)中读取数据集并从中构建决策树。

Explorer 界面通过将选择显示为菜单、通过使选择变灰直到它们适合为止强制我们按合适的顺序工作以及通过显示要填写的表单来提供选项,从而为我们提供帮助。它有利于在鼠标经过屏幕上的元素时弹出工具提示以了解它们的作用。合理的默认值提供了一种方法,使我们能够以最少的努力获得结果——但我们将不得不思考它是什么才能理解结果的含义。

Knowledge Flow 界面允许我们创建用于流式信息处理的结构。Explorer 界面的局限性在于,它会将所有内容都加载到主内存中,当它可以打开数据集时,它会直接加载所有内容。

这意味着 Explorer 可用于中小型问题。但是,Weka 包含一些可用于处理大型数据集的增量算法。Knowledge Flow 界面允许我们围绕屏幕拖动定义学习算法和数据源的框,并将它们连接到所需的配置中。

它允许我们通过连接定义数据源、预处理工具、学习算法、计算方法和可视化模块的组件来定义数据流。如果过滤器和学习算法适合增量学习,则数据将被额外加载和处理。

更新时间: 2022年2月11日

522 次查看

开启你的职业生涯

通过完成课程获得认证

开始学习
广告