机器学习 - 降维



机器学习中的降维是指在保留尽可能多的原始信息的同时,减少数据集中的特征或变量数量的过程。换句话说,它是一种通过降低数据复杂性来简化数据的方法。

当数据集具有大量特征或变量时,就会出现降维的必要性。拥有过多的特征会导致过拟合并增加模型的复杂性。它还会使数据可视化变得困难,并会减慢训练过程。

降维主要有两种方法:

特征选择

这涉及根据某些标准(例如它们的重要性或与目标变量的相关性)选择原始特征的子集。

以下是一些常用的特征选择技术:

  • 过滤方法
  • 包装方法
  • 嵌入方法

特征提取

特征提取是将原始数据转换为可用于机器学习模型的一组有意义的特征的过程。它涉及通过选择、组合或转换特征来降低输入数据的维数,以创建一组对机器学习模型更有用的新特征。

降维可以提高机器学习模型的准确性和速度,减少过拟合,并简化数据可视化。

广告