Weka - 介绍
任何机器学习应用程序的基础都是数据 - 不仅是少量数据,而是巨大的数据,在当前术语中称为大数据。
要训练机器分析大数据,你需要对以下数据进行多项考量 −
- 数据必须干净。
- 不应包含空值。
此外,数据表中的并非所有列都对你要进行的分析类型有用。在将数据输入机器学习算法之前,必须移除无关的数据列或机器学习术语中称为“特征”的数据。
简而言之,在大数据可用于机器学习之前需要很多预处理。一旦数据准备就绪,你将应用各种机器学习算法,如分类、回归、聚类等,以解决你的问题。
你应用的算法类型在很大程度上取决于你的领域知识。即使在同一类型(例如分类)中,也有多种算法可用。你可能希望在同一类别下测试不同的算法,以构建高效的机器学习模型。在执行此操作时,你将更倾向于对处理后的数据进行可视化,因此你还需要可视化工具。
在即将到来的章节中,你将了解 Weka,这是一款软件,可以轻松完成所有上述操作,让你轻松处理大数据。
广告