Weka - 数据加载
本章我们将从第一个用于数据预处理的选项卡开始。这是您应用于数据以构建模型的所有算法的共同点,也是 WEKA 中所有后续操作的常见步骤。
为了使机器学习算法获得可接受的精度,务必先清理数据。这是因为从现场收集的原始数据可能包含空值、不相关的列等等。
本章将学习如何预处理原始数据,并创建一个干净、有意义的数据集以供进一步使用。
首先,您将学习如何将数据文件加载到 WEKA Explorer 中。数据可以从以下来源加载:
- 本地文件系统
- 网络
- 数据库
本章将详细介绍这三种加载数据的方法。
从本地文件系统加载数据
在上一课中学习的机器学习选项卡下方,您会找到以下三个按钮:
- 打开文件…
- 打开 URL…
- 打开数据库…
点击**打开文件…**按钮。将打开一个目录导航窗口,如下面的屏幕所示:
现在,导航到存储数据文件的文件夹。WEKA 安装程序附带许多示例数据库供您试验。这些数据库位于 WEKA 安装程序的**data**文件夹中。
为了学习目的,从该文件夹中选择任何数据文件。文件内容将加载到 WEKA 环境中。我们很快就会学习如何检查和处理这些加载的数据。在此之前,让我们看看如何从 Web 加载数据文件。
从 Web 加载数据
单击**打开 URL…**按钮后,您将看到如下窗口:
我们将从公共 URL 打开文件。在弹出框中键入以下 URL:
https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff
您可以指定存储数据的任何其他 URL。**Explorer** 将从远程站点将数据加载到其环境中。
从数据库加载数据
单击**打开数据库…**按钮后,您将看到如下窗口:
将连接字符串设置为您的数据库,设置数据选择查询,处理查询并将选定的记录加载到 WEKA 中。
广告