统计数据挖掘的方法有哪些?
在统计数据挖掘技术中,它被创建用于有效处理大量数据,这些数据通常是多维的,并且可能包含几种复杂类型。
有几种完善的统计方法用于数据分析,特别是数值数据。这些方法已被广泛应用于科学记录(例如,物理、工程、制造、心理学和医学实验记录),以及来自经济学和社会科学的信息。
统计数据挖掘的各种方法如下:
回归分析 - 通常,这些技术用于根据新的预测变量(自变量)预测响应变量(因变量)的值,其中变量是数值型。回归分析有多种形式,包括线性回归、多元回归、加权回归、多项式回归、非参数回归和稳健回归(当误差不能满足正态性条件或数据包含大量异常值时,稳健方法非常有用)。
广义线性模型 - 这些模型及其推广(广义相加模型)能够以类似于使用线性回归对数学响应变量建模的方式,将分类(名义)响应变量(其几种变换)与一组预测变量相关联。广义线性模型包括逻辑回归和泊松回归。
方差分析 - 此方法分析由数值响应变量和新的分类变量(因子)定义的两个或多个总体的实验信息。通常,方差分析(单因素方差分析)问题包含对k个总体或处理的比较,以确定至少两个均值是否不同。
混合效应模型 - 这些模型用于探索分组数据——可以根据一个或多个分组变量进行分类的数据。它们通常定义响应变量与根据一个或多个因素组合的数据中的几个协变量之间的关系。其应用领域包括多层次数据、重复测量数据、区组设计和纵向数据。
因子分析 - 此方法可以确定哪些变量组合产生给定的因子。例如,对于一些精神病学数据,无法直接计算感兴趣的特定因子(例如,智力);但是,可以测量其他反映感兴趣元素的量。因此,没有一个变量适合作为因变量。
判别分析 - 此技术可以预测分类响应变量。与广义线性模型不同,它认为自变量服从多元正态分布。该过程试图确定几个判别函数(自变量的线性组合),这些函数可以区分响应变量所代表的组。判别分析通常用于社会科学。
生存分析 - 有多种完善的统计方法用于生存分析。这些技术最初是为了预测接受医学分析的患者至少存活到时间t的概率而设计的。
质量控制 - 有多种统计方法用于制作质量控制图,包括Shewhart图和CUSUM图。这些统计量包括均值、标准差、极差、计数、移动平均数、移动标准差和移动极差。