概率密度估计与最大似然估计指南
密度估计是机器学习和统计学中一个重要的组成部分。它指的是获取一组数据的概率密度函数 (PDF)。它对于许多任务至关重要,例如识别异常值、聚类、模型构建和故障检测。本研究基于深度学习,探讨了所有传统的和新兴的密度估计方法。
传统的密度估计方法
直方图
如果您需要快速了解您的数据集是否完整,则直方图是您的不二之选。它们将数据范围划分为称为“箱”的区间,以确定事件的频率分布。每个箱的高度表示预期属于该区间的数据点的数量。
核密度估计 (KDE)
核密度估计 (KDE) 是一种非参数方法,用于估计数据集的密度。它通过在每个数据点放置一个核函数并将其加起来来生成平滑的密度估计。KDE 的性能在很大程度上取决于所选的核函数以及通过带宽参数设置的平滑量。
高斯混合模型 (GMM)
GMM 基于数据来自多个高斯分布的混合的假设。它通过对高斯分量的加权和拟合数据来估计密度。分量的数量和参数是使用期望最大化 (EM) 算法逐步确定的。
参数密度估计方法
参数模型
在参数密度估计中,假设数据遵循特定的参数分布。最大似然估计 (MLE) 是一种用于确定参数值的方法,这些值使观察到的数据最有可能。MLE 通常用于机器学习中以拟合参数模型并估计其参数。它涉及到构建似然函数、最大化似然函数(通常通过取对数似然函数)并找到参数。MLE 用于线性回归、逻辑回归和高斯混合模型等模型。它允许我们进行推断、抽样和估计数据分布。
MLE 的数学公式
似然函数 L(θ) 反映了在给定具有参数 θ 的统计模型和一组独立同分布 (i.i.d.) 观测值 x1, x2,..., xn 的情况下,观察到数据的概率。假设观测值是从模型的概率分布中采样,似然函数可以定义为观测值的联合概率 -
$\mathrm{L(\theta) \: = \: P(x_{1},x_{2},\dotso , x_{n}| \theta)}$
MLE 的目标是找到使似然函数 L(θ) 最大化的参数值。这可以表示为 -
$\mathrm{\theta \: = \: \arg\max_{t}\:L(\theta)}$
在实践中,使用对数似然函数通常更方便,它由以下公式给出 -
$\mathrm{\ell(\theta) \: = \: \log \: L(\theta)}$
由于对数是一个单调递增函数,因此最大化对数似然函数等价于最大化似然函数。
使用 MLE 估计参数
MLE 通过将对数似然函数关于参数的导数设置为零来估计参数。这产生了一组方程,可以用来求解参数的最优值。
例如,考虑将高斯分布拟合到一些数据。似然函数等于各个高斯概率的乘积 -
$\mathrm{L(\mu ,\: \sigma^{2}) \: = \: \Pi_{i}P(x_{i}\: | \: \mu, \: \sigma^{2})\: = \: \Pi_{i} \: 1 /(\surd (2\pi \: \sigma^{2}))\: ^{*} \: \exp(−(x_{i} \: − \: \mu)^{2}\:/\:(2\sigma^{2}))}$
当我们取对数时,我们得到 -
$\mathrm{\ell(\mu ,\: \sigma^{2}) \: = \: \Sigma_{i}[\log(1 /(\surd (2\pi \: \sigma^{2})))\: − \: (x_{i} \: − \: \mu)^{2}\: / \: (2\sigma^{2})]}$
为了估计参数 $\mathrm{\mu}$ 和 $\mathrm{\sigma^{2}}$,我们对 $\mathrm{\ell(\mu ,\: \sigma^{2})}$ 关于 $\mathrm{\mu}$ 和 $\mathrm{\sigma^{2}}$ 求导,并将导数设置为零。求解这些方程给出了 $\mathrm{\mu}$ 和 $\mathrm{\sigma^{2}}$ 的最大似然估计。
MLE 的性质
MLE 具有几个理想的性质 -
一致性 - 在某些条件下,随着样本量的增加,MLE 会收敛到真实参数值。
效率 - MLE 是渐近有效的,在一致估计量中实现了最小的渐近方差。
渐近正态性 - MLE 具有正态分布,其均值为真实参数值。此属性允许我们构建置信区间和进行假设检验。
在机器学习中的应用
在机器学习中,MLE 通常用于估计各种模型的参数,例如线性回归、逻辑回归、隐马尔可夫模型、高斯混合模型等等。它提供了一种基于原理的方法来拟合模型到数据,并且易于在计算机上实现。
结论
密度估计是机器学习中一项最基本的任务。通过使用传统的技术,如直方图、核密度估计和高斯混合模型,我们可以获得对真实密度的近似估计。新兴的方法,例如混合密度网络、变分自动编码器和流模型,提供了更大的灵活性,并且基于深层知识取得了显著成果。最大似然估计 (MLE) 是这两个领域中广泛使用的一种技术。因此,我们可以利用我们拥有的数据来估计模型的参数。这种估计是一致的、有效的和渐近正态的。