标准化与规范化

简介

标准化和规范化是信息预处理中两种常用的策略，旨在将原始数据转换为适合分析和建模的合理格式。这些策略通过改进数据的属性（例如范围、分布和尺度）在机器学习中发挥着至关重要的作用。规范化包括将数据缩放到特定范围，通常在 0 和 1 之间，同时保持特征之间的相对关系。另一方面，标准化将数据集中在其均值上，并将其缩放到标准差为 1。在本文中，我们将探讨规范化和标准化的概念、技术以及它们为信息预处理管道带来的好处。

什么是规范化？

规范化是一种信息预处理策略，它将数据缩放到特定范围，通常在 0 和 1 之间。它根据数据的范围相对地更改值，同时保持不同特征之间的相对关系。当特征具有不同的尺度或单位时，规范化特别有用，并且保持其相对重要性至关重要。

规范化的方法包括根据数据的范围相对地更改值。一种常见的规范化策略是 Min-Max 缩放，它将数据的最小值映射到 0，最大值映射到 1，其他值则相应地进行缩放。

规范化有一些优点。首先，它保持了特征之间的相对关系，因为它是在相对地更改值。通常，当比较具有不同尺度或单位的不同特征时，这一点尤其重要。此外，规范化有助于防止某些特征由于其较大的值而支配分析。它确保每个特征对建模过程做出同等贡献。第三，规范化有助于提高某些机器学习算法的稳健性和收敛性，特别是那些依赖于距离计算的算法，例如 K-最近邻 (KNN) 和支持向量机 (SVM)。最后，规范化允许更好地解释和理解数据，因为值被转换为通用范围。

但是，规范化也有一些限制需要注意。一个主要的限制是它对异常值的影响。由于规范化基于数据的最小值和最大值，因此异常值会显着影响规范化数据的范围和分布。具有极端值的异常值可能会扭曲规范化过程，并导致产生偏差的结果。因此，在应用规范化策略之前，适当处理异常值非常重要。

什么是标准化？

当数据的分布至关重要并且消除尺度影响至关重要时，标准化特别有用。标准化的方法包括从每个数据点中减去均值，并将其除以标准差。

标准化提供了一些优点。首先，它消除了数据中的尺度影响，从而能够更容易地比较不同的特征。通过标准化数据，具有不同尺度和单位的特征被置于一个共同的尺度上，这有助于分析和解释其相对重要性。此外，标准化降低了异常值对数据的影响。由于标准化基于标准差，因此与规范化相比，极端值对标准化数据的影响较小。这使得标准化在存在异常值的情况下成为更稳健的过程。第三，标准化在某些机器学习算法中特别有用，例如线性回归和逻辑回归，这些算法依赖于均值为 0 且尺度相似的特征才能进行精确的参数估计。

但是，需要注意的是，标准化不会解决数据中偏斜分布的问题。如果初始数据包含偏斜分布，则标准化数据仍将保持相同的偏斜性。在这种情况下，可能需要额外的转换来解决偏斜并使分布正常化。