Weka - 文件格式
WEKA 支持大量的数据文件格式。以下是完整列表:
- arff
- arff.gz
- bsi
- csv
- dat
- data
- json
- json.gz
- libsvm
- m
- names
- xrff
- xrff.gz
屏幕底部下拉列表框中列出了它支持的文件类型。如下面的屏幕截图所示。
您会注意到它支持多种格式,包括 CSV 和 JSON。默认文件类型为 Arff。
Arff 格式
一个Arff文件包含两个部分 - 标题和数据。
- 标题描述了属性类型。
- 数据部分包含一个用逗号分隔的数据列表。
例如,从 WEKA 示例数据库加载的天气数据文件如下所示:
从屏幕截图中,您可以推断出以下几点:
@relation 标记定义了数据库的名称。
@attribute 标记定义了属性。
@data 标记开始数据行的列表,每个数据行包含用逗号分隔的字段。
属性可以采用名义值,如这里所示的 outlook:
@attribute outlook (sunny, overcast, rainy)
属性可以采用实数值,在本例中:
@attribute temperature real
您还可以设置一个名为 play 的目标或类变量,如这里所示:
@attribute play (yes, no)
目标采用两个名义值 yes 或 no。
其他格式
Explorer 可以加载前面提到的任何格式的数据。由于 arff 是 WEKA 中的首选格式,因此您可以从任何格式加载数据并将其保存为 arff 格式以供以后使用。在预处理数据后,只需将其保存为 arff 格式即可进行进一步分析。
现在您已经了解了如何将数据加载到 WEKA 中,在下一章中,您将学习如何预处理数据。
广告