为什么数据挖掘需要统计学?
统计学是关于从数据中学习的科学。它涵盖了从计划记录集和后续数据管理到最终活动的一切,包括从称为数据的数字事实中推断和呈现结果。统计学关注的是人类最基本的需求:在创新和不确定性面前,需要更多地了解世界以及世界如何运作。
信息是知识的交流。数据本身被称为原始数据,并非知识。从数据到知识的顺序如下:从数据到信息(当数据与决策问题相关时,数据就变成了信息);从信息到事实(当数据可以支持它时,信息就变成了事实);最后,从事实到知识(当事实用于成功完成决策过程时,事实就变成了知识)。
统计学源于将知识置于系统证据基础上的需求。这需要研究概率规律、发展数据属性和关系的计算等等。
统计学定义了数值记录的分析和呈现,这是所有数据挖掘算法的基本要素。它支持处理海量数据的工具和分析方法。统计学涵盖了规划、设计、收集信息、分析和报告研究结果。因为这些统计学不仅定义在数学中,而且商业分析师也使用统计学来解决商业问题。
推论统计用于根据样本估计总体参数的值。它可以进行假设检验,以查看两个数据集是否相似或不同。它用于进行线性或多元回归分析以解释因果关系。
假设检验可以对两个数据集进行数值比较。例如,它可以认为(假设)这种销售额与主要竞争对手的销售额相似或更好。它可以使用假设检验来数学地证实或拒绝这种假设。
相关分析是一个简单的工具,可以从大型数据集中经常观察到的多个随机变量中隔离感兴趣的变量,以查看哪些业务变量显着影响所需的业务结果。
可以使用多种统计方法来准备质量控制图表,包括Shewhart图表和cusum图表(两者都显示组汇总统计数据)。这些统计数据包含均值、标准差、范围、计数、移动平均值、移动标准差和移动范围。
广告