软件度量数据分析
收集相关数据后,我们必须以适当的方式对其进行分析。选择分析技术需要考虑三个主要方面。
- 数据的性质
- 实验的目的
- 设计考虑
数据的性质
为了分析数据,我们还必须查看数据所代表的更大的总体以及该数据的分布。
抽样、总体和数据分布
抽样是从大量总体中选择一组数据的过程。样本统计量描述并总结从一组实验对象获得的度量。
总体参数代表如果测量所有可能的受试者将获得的值。
总体或样本可以用集中趋势的度量(如均值、中位数和众数)和离散趋势的度量(如方差和标准差)来描述。许多数据集呈正态分布,如下图所示。
如上所示,数据将围绕均值均匀分布,这是正态分布的重要特征。
还存在其他分布,其中数据倾斜,使得均值一侧的数据点多于另一侧。例如:如果大部分数据存在于均值的左侧,那么我们可以说分布左偏。
实验的目的
通常,进行实验是为了:
- 验证理论
- 探索关系
为了实现这些目标,应根据假设正式表达目标,并且分析必须直接解决假设。
验证理论
调查必须设计成探索理论的真实性。该理论通常指出,使用某种方法、工具或技术对受试者具有特定影响,使其在某些方面优于另一种方法。
需要考虑两种数据情况:**正态数据**和**非正态数据**。
如果数据来自正态分布,并且有两个组需要比较,则可以使用学生t检验进行分析。如果需要比较两个以上组,可以使用称为F统计量的方差分析。
如果数据是非正态的,则可以通过对其进行排序使用Kruskal-Wallis检验进行分析。
探索关系
调查旨在确定描述一个变量或多个变量的数据点之间的关系。
有三种技术可以回答有关关系的问题:箱线图、散点图和相关性分析。
**箱线图**可以表示一组数据的范围的摘要。
**散点图**表示两个变量之间的关系。
**相关性分析**使用统计方法来确认两个属性之间是否存在真实的关联。
对于正态分布的值,使用**皮尔逊相关系数**来检查两个变量是否高度相关。
对于非正态数据,对数据进行排序并使用**斯皮尔曼等级相关系数**作为关联度量。非正态数据的另一个度量是**肯德尔稳健相关系数**,它研究数据点对之间的关系,并可以识别偏相关。
如果排名包含大量相等值,可以使用列联表上的**卡方检验**来检验变量之间的关联。类似地,可以使用**线性回归**生成一个方程来描述变量之间的关系。
对于两个以上的变量,可以使用**多元回归**。
设计考虑
选择分析技术时必须考虑调查的设计。同时,分析的复杂性会影响所选择的设计。多组使用F统计量而不是学生t检验(两组)。
对于具有两个以上因素的复杂析因设计,需要更复杂的关联和显著性检验。
统计技术可以用来解释一组变量对其他变量的影响,或补偿时间或学习效应。