软件度量数据分析

收集相关数据后，我们必须以适当的方式对其进行分析。选择分析技术需要考虑三个主要方面。

数据的性质

为了分析数据，我们还必须查看数据所代表的更大的总体以及该数据的分布。

抽样是从大量总体中选择一组数据的过程。样本统计量描述并总结从一组实验对象获得的度量。

总体参数代表如果测量所有可能的受试者将获得的值。

总体或样本可以用集中趋势的度量（如均值、中位数和众数）和离散趋势的度量（如方差和标准差）来描述。许多数据集呈正态分布，如下图所示。

如上所示，数据将围绕均值均匀分布，这是正态分布的重要特征。

还存在其他分布，其中数据倾斜，使得均值一侧的数据点多于另一侧。例如：如果大部分数据存在于均值的左侧，那么我们可以说分布左偏。

通常，进行实验是为了：

为了实现这些目标，应根据假设正式表达目标，并且分析必须直接解决假设。

调查必须设计成探索理论的真实性。该理论通常指出，使用某种方法、工具或技术对受试者具有特定影响，使其在某些方面优于另一种方法。

需要考虑两种数据情况：**正态数据**和**非正态数据**。

如果数据来自正态分布，并且有两个组需要比较，则可以使用学生t检验进行分析。如果需要比较两个以上组，可以使用称为F统计量的方差分析。

如果数据是非正态的，则可以通过对其进行排序使用Kruskal-Wallis检验进行分析。

调查旨在确定描述一个变量或多个变量的数据点之间的关系。

有三种技术可以回答有关关系的问题：箱线图、散点图和相关性分析。

**箱线图**可以表示一组数据的范围的摘要。
**散点图**表示两个变量之间的关系。
**相关性分析**使用统计方法来确认两个属性之间是否存在真实的关联。
- 对于正态分布的值，使用**皮尔逊相关系数**来检查两个变量是否高度相关。
- 对于非正态数据，对数据进行排序并使用**斯皮尔曼等级相关系数**作为关联度量。非正态数据的另一个度量是**肯德尔稳健相关系数**，它研究数据点对之间的关系，并可以识别偏相关。

如果排名包含大量相等值，可以使用列联表上的**卡方检验**来检验变量之间的关联。类似地，可以使用**线性回归**生成一个方程来描述变量之间的关系。

对于两个以上的变量，可以使用**多元回归**。

选择分析技术时必须考虑调查的设计。同时，分析的复杂性会影响所选择的设计。多组使用F统计量而不是学生t检验（两组）。

对于具有两个以上因素的复杂析因设计，需要更复杂的关联和显著性检验。

统计技术可以用来解释一组变量对其他变量的影响，或补偿时间或学习效应。

打印页面