机器学习中的假设



在机器学习中,假设是一个对问题的拟议解释或解决方案。它是一个暂定的假设或想法,可以使用数据进行测试和验证。在监督学习中,假设是算法用来对未见数据进行预测的模型。

机器学习中的假设通常表示为将输入数据映射到输出预测的函数。换句话说,它定义了输入和输出变量之间的关系。机器学习的目标是找到能够很好地泛化到未见数据的最佳假设。

什么是假设?

假设是一个假设或想法,用作对某事的可能解释,可以对其进行测试以查看其是否可能为真。假设通常基于某些证据。假设的一个简单示例是假设:“房价与其平方英尺成正比”。

机器学习中的假设

在机器学习中,主要是监督学习中,假设通常表示为将输入数据映射到输出预测的函数。换句话说,它定义了输入和输出变量之间的关系。机器学习的目标是找到能够很好地泛化到未见数据的最佳假设。

在监督学习中,假设(h)可以用数学方式表示如下:

$$\mathrm{h(x) \: = \: \hat{y}}$$

这里x是输入,ŷ是预测值。

假设函数(h)

机器学习模型由其假设函数定义。假设函数是一个接受输入并返回输出的数学函数。对于简单线性回归问题,假设可以表示为输入特征('x')的线性函数。

$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x}$$

其中w0和w1是参数(权重),'x'是输入特征。

对于多元线性回归问题,模型可以用数学方式表示如下:

$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x \: + \: \dotso \: + \: w_{n}x_{n}}$$

其中,

  • w0, w1, ..., wn是参数。
  • x1, x2, ..., xn是输入数据(特征)
  • n是训练样本的总数
  • h(x)是假设函数

机器学习过程试图找到参数的最佳值,以最小化成本函数。

假设空间(H)

所有可能假设的集合称为假设空间或集合。机器学习过程试图在所有可能的假设中找到最佳拟合假设。

对于线性回归模型,假设包括所有可能的线性函数。

找到最佳假设的过程称为模型训练或学习。在训练过程中,算法调整模型参数以最小化误差或损失函数,该函数衡量预测输出与实际输出之间的差异。

机器学习中假设的类型

机器学习中主要有两种类型的假设:

1. 零假设 (H0)

零假设是默认假设或解释,即输入特征与输出变量之间没有关系。在机器学习过程中,我们试图拒绝零假设以支持另一个假设。如果“p值”小于显著性水平(α),则拒绝零假设。

2. 备择假设 (H1)

备择假设是零假设的直接反驳。备择假设是一个假设,它假设输入数据和输出(目标值)之间存在显著关系。当我们拒绝零假设时,我们接受备择假设。当p值小于显著性水平时,我们拒绝零假设并接受备择假设。

机器学习中的假设检验

假设检验确定数据是否充分支持特定假设。以下是机器学习中假设检验的步骤:

  • 陈述零假设和备择假设 - 定义零假设H0和备择假设H1
  • 选择显著性水平(α) - 显著性水平是当零假设为真时拒绝零假设的概率。通常,α的值为0.05 (5%)或0.01 (1%)。
  • 计算检验统计量 - 根据数据和假设类型计算t统计量或z统计量。
  • 确定p值 - p值衡量反对零假设的强度。如果p值小于显著性水平,则拒绝零假设。
  • 做出决定 - p值小表示特征与目标变量之间存在显著关系。拒绝零假设。

如何找到最佳假设?

找到最佳假设的过程称为模型训练或学习。在训练过程中,算法调整模型参数以最小化误差或损失函数,该函数衡量预测输出与实际输出之间的差异。

使用梯度下降等优化技术来寻找最佳假设。最佳假设是最小化成本函数或误差函数的假设。

例如,在线性回归中,均方误差 (MSE) 用作成本函数 (J(w))。它定义为

$$\mathrm{J(x) \: = \: \frac{1}{2n}\displaystyle \sum \limits_{i=0}^n \left(h(x_{i}) \: - \: y_{i}\right)^{2}}$$

其中,

  • h(xi)是第i个数据样本或观测值的预测输出。
  • yi是第i个样本的实际目标值。
  • n是训练数据的数量。

在这里,目标是找到最小化成本函数的w的最佳值。使用这些最佳参数值w表示的假设将是最佳假设。

良好假设的特性

假设在机器学习模型的成功中起着至关重要的作用。一个好的假设应该具有以下特性:

  • 泛化能力 − 模型应该能够对未见数据做出准确预测。
  • 简洁性 − 模型应该简洁易懂,便于理解和解释。
  • 鲁棒性 − 模型应该能够处理数据中的噪声和异常值。
  • 可扩展性 − 模型应该能够高效地处理大量数据。

许多类型的机器学习算法可以用来生成假设,包括线性回归、逻辑回归、决策树、支持向量机、神经网络等等。

模型训练完成后,可以用于对新数据进行预测。但是,在实际应用中使用模型之前,务必评估模型的性能。这可以通过在单独的验证集上测试模型或使用交叉验证技术来实现。

广告