什么是降维?


在降维中,应用数据编码或转换以获得原始数据的简化或“压缩”表示。如果可以从压缩数据中无任何信息丢失地重建原始数据,则数据简化称为无损压缩。如果重建的数据只是原始数据的近似值,则数据简化称为有损压缩。

有两种有损压缩方法,如下所示:

  • **小波变换** - 离散小波变换 (DWT) 是一种线性信号处理技术,当应用于数据向量 X 时,将其转换为数值不同的向量 X’(小波系数)。这两个向量长度相似。当使用此技术进行数据简化时,可以将每个元组视为 n 维数据向量,即 𝑋=(x1,x2,…xn),表示对来自 n 个数据库属性的元组进行的 n 次测量。

DWT 与离散傅里叶变换 (DFT) 密切相关,DFT 是一种包含正弦和余弦的信号处理技术。一般来说,DWT 能够实现更好的有损压缩。也就是说,如果为给定数据向量的 DWT 和 DFT 保留相同数量的系数,则 DWT 版本将提供对原始数据的更准确近似。因此,对于等效的近似,DWT 比 DFT 需要更少的存储空间。

小波变换可用于多维数据,包括数据立方体。这是通过首先对第一维应用变换,然后对第二维应用变换,依此类推来完成的。涉及的计算复杂度与立方体中的单元数成线性关系。

小波变换在稀疏或倾斜数据以及具有有序属性的数据上效果良好。据报道,小波的有损压缩优于当前商业标准 JPEG 压缩。小波变换在许多现实世界应用中都有应用,包括指纹图像压缩、计算机视觉、时间序列数据分析和数据清洗。

  • **主成分分析** - 主成分分析也称为 Karhunen-Loeve 或 K-L 方法。它可以搜索 k 个 n 维正交向量,这些向量最适合用于表示数据,其中 k ≤ n。原始数据投影到一个更小的空间上,从而实现降维。它通过创建替代的更小的变量集来组合属性的本质。原始数据可以投影到这个更小的集合上。

更新于:2021年11月19日

2K+ 次浏览

开启你的职业生涯

完成课程后获得认证

开始
广告