软件度量数据分析



收集相关数据后,我们必须以适当的方式对其进行分析。选择分析技术需要考虑三个主要方面。

  • 数据的性质
  • 实验的目的
  • 设计考虑

数据的性质

为了分析数据,我们还必须查看数据所代表的更大的总体以及该数据的分布。

抽样、总体和数据分布

抽样是从大量总体中选择一组数据的过程。样本统计量描述并总结从一组实验对象获得的度量。

总体参数代表如果测量所有可能的受试者将获得的值。

总体或样本可以用集中趋势的度量(如均值、中位数和众数)和离散趋势的度量(如方差和标准差)来描述。许多数据集呈正态分布,如下图所示。

Population

如上所示,数据将围绕均值均匀分布,这是正态分布的重要特征。

还存在其他分布,其中数据倾斜,使得均值一侧的数据点多于另一侧。例如:如果大部分数据存在于均值的左侧,那么我们可以说分布左偏。

实验的目的

通常,进行实验是为了:

  • 验证理论
  • 探索关系

为了实现这些目标,应根据假设正式表达目标,并且分析必须直接解决假设。

验证理论

调查必须设计成探索理论的真实性。该理论通常指出,使用某种方法、工具或技术对受试者具有特定影响,使其在某些方面优于另一种方法。

需要考虑两种数据情况:**正态数据**和**非正态数据**。

如果数据来自正态分布,并且有两个组需要比较,则可以使用学生t检验进行分析。如果需要比较两个以上组,可以使用称为F统计量的方差分析。

如果数据是非正态的,则可以通过对其进行排序使用Kruskal-Wallis检验进行分析。

探索关系

调查旨在确定描述一个变量或多个变量的数据点之间的关系。

有三种技术可以回答有关关系的问题:箱线图、散点图和相关性分析。

  • **箱线图**可以表示一组数据的范围的摘要。

  • **散点图**表示两个变量之间的关系。

  • **相关性分析**使用统计方法来确认两个属性之间是否存在真实的关联。

    • 对于正态分布的值,使用**皮尔逊相关系数**来检查两个变量是否高度相关。

    • 对于非正态数据,对数据进行排序并使用**斯皮尔曼等级相关系数**作为关联度量。非正态数据的另一个度量是**肯德尔稳健相关系数**,它研究数据点对之间的关系,并可以识别偏相关。

如果排名包含大量相等值,可以使用列联表上的**卡方检验**来检验变量之间的关联。类似地,可以使用**线性回归**生成一个方程来描述变量之间的关系。

对于两个以上的变量,可以使用**多元回归**。

设计考虑

选择分析技术时必须考虑调查的设计。同时,分析的复杂性会影响所选择的设计。多组使用F统计量而不是学生t检验(两组)。

对于具有两个以上因素的复杂析因设计,需要更复杂的关联和显著性检验。

统计技术可以用来解释一组变量对其他变量的影响,或补偿时间或学习效应。

广告