Weka - 数据加载



本章我们将从第一个用于数据预处理的选项卡开始。这是您应用于数据以构建模型的所有算法的共同点,也是 WEKA 中所有后续操作的常见步骤。

为了使机器学习算法获得可接受的精度,务必先清理数据。这是因为从现场收集的原始数据可能包含空值、不相关的列等等。

本章将学习如何预处理原始数据,并创建一个干净、有意义的数据集以供进一步使用。

首先,您将学习如何将数据文件加载到 WEKA Explorer 中。数据可以从以下来源加载:

  • 本地文件系统
  • 网络
  • 数据库

本章将详细介绍这三种加载数据的方法。

从本地文件系统加载数据

在上一课中学习的机器学习选项卡下方,您会找到以下三个按钮:

  • 打开文件…
  • 打开 URL…
  • 打开数据库…

点击**打开文件…**按钮。将打开一个目录导航窗口,如下面的屏幕所示:

Local File System

现在,导航到存储数据文件的文件夹。WEKA 安装程序附带许多示例数据库供您试验。这些数据库位于 WEKA 安装程序的**data**文件夹中。

为了学习目的,从该文件夹中选择任何数据文件。文件内容将加载到 WEKA 环境中。我们很快就会学习如何检查和处理这些加载的数据。在此之前,让我们看看如何从 Web 加载数据文件。

从 Web 加载数据

单击**打开 URL…**按钮后,您将看到如下窗口:

Loading Data From Web

我们将从公共 URL 打开文件。在弹出框中键入以下 URL:

https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff

您可以指定存储数据的任何其他 URL。**Explorer** 将从远程站点将数据加载到其环境中。

从数据库加载数据

单击**打开数据库…**按钮后,您将看到如下窗口:

Loading Data From Db

将连接字符串设置为您的数据库,设置数据选择查询,处理查询并将选定的记录加载到 WEKA 中。

广告