数据挖掘的基本概念是什么?
数据挖掘是从存储在存储库中的海量数据中提取有用的新关联、模式和趋势的过程,使用包括统计和数学技术在内的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者来说既合乎逻辑又有帮助的新方法总结记录。
数据挖掘有各种概念,如下所示:
分类 - 分类是发现表示和区分数据类或概念的模型的过程,目的是能够使用该模型来预测类标签未知的对象的类。派生的模型基于对一组训练记录(即类标签已知的对象)的分析。
预测 - 预测与分类相同,只是对于预测,结果被误传到未来。
商业和研究中预测函数的示例包括:
它可以预测股票在未来三个月内的价值。
它可以预测如果提高限速,明年交通事故死亡人数的百分比增长。
它可以根据团队统计数据的对应关系预测今年秋季棒球世界大赛的获胜者。
可以预测药物发现中某个特定分子是否会为制药公司启动一种经济高效的新药。
关联规则和推荐系统 - 关联规则或亲和性分析旨在在大数据库中查找项目之间此类一般的关联模式。这些规则可以在多种方法中使用。例如,杂货店可以使用此类信息进行产品摆放。
他们可以使用这些规则进行每周促销活动或捆绑产品。从医院数据库中提取的关于患者连续住院期间症状的关联规则可以帮助找出“哪些症状之后会出现哪些其他症状”,从而帮助预测回访患者的未来症状。
数据归约 - 数据挖掘用于在海量数据库中选择数据。当对大量记录完成数据分析和挖掘时,处理需要非常长的时间,这使得它变得不可能和不可行。
它可以减少数据分析的处理时间,数据归约技术用于获得数据集的简化表示,该表示在体积上要小得多,同时保持原始数据的完整性。通过减少数据,提高了数据挖掘过程的效率,从而产生相同的分析结果。
数据归约旨在更简洁地定义它。当数据量较小时,更容易使用成熟且计算成本高的算法。数据的减少可以是行(记录)数量方面,也可以是列(维度)数量方面。