- 机器学习基础
- ML - 首页
- ML - 简介
- ML - 开始
- ML - 基本概念
- ML - 生态系统
- ML - Python库
- ML - 应用
- ML - 生命周期
- ML - 必备技能
- ML - 实现
- ML - 挑战与常见问题
- ML - 局限性
- ML - 真实案例
- ML - 数据结构
- ML - 数学基础
- ML - 人工智能
- ML - 神经网络
- ML - 深度学习
- ML - 获取数据集
- ML - 分类数据
- ML - 数据加载
- ML - 数据理解
- ML - 数据准备
- ML - 模型
- ML - 监督学习
- ML - 无监督学习
- ML - 半监督学习
- ML - 强化学习
- ML - 监督学习与无监督学习
- 机器学习数据可视化
- ML - 数据可视化
- ML - 直方图
- ML - 密度图
- ML - 箱线图
- ML - 相关矩阵图
- ML - 散点矩阵图
- 机器学习统计学
- ML - 统计学
- ML - 均值、中位数、众数
- ML - 标准差
- ML - 百分位数
- ML - 数据分布
- ML - 偏度和峰度
- ML - 偏差和方差
- ML - 假设
- ML中的回归分析
- ML - 回归分析
- ML - 线性回归
- ML - 简单线性回归
- ML - 多元线性回归
- ML - 多项式回归
- ML中的分类算法
- ML - 分类算法
- ML - 逻辑回归
- ML - K近邻算法(KNN)
- ML - 朴素贝叶斯算法
- ML - 决策树算法
- ML - 支持向量机
- ML - 随机森林
- ML - 混淆矩阵
- ML - 随机梯度下降
- ML中的聚类算法
- ML - 聚类算法
- ML - 基于质心的聚类
- ML - K均值聚类
- ML - K中心点聚类
- ML - 均值漂移聚类
- ML - 层次聚类
- ML - 基于密度的聚类
- ML - DBSCAN聚类
- ML - OPTICS聚类
- ML - HDBSCAN聚类
- ML - BIRCH聚类
- ML - 亲和传播
- ML - 基于分布的聚类
- ML - 凝聚层次聚类
- ML中的降维
- ML - 降维
- ML - 特征选择
- ML - 特征提取
- ML - 向后剔除法
- ML - 向前特征构建
- ML - 高相关性过滤
- ML - 低方差过滤
- ML - 缺失值比率
- ML - 主成分分析
- 强化学习
- ML - 强化学习算法
- ML - 利用与探索
- ML - Q学习
- ML - REINFORCE算法
- ML - SARSA强化学习
- ML - 演员评论家方法
- 深度强化学习
- ML - 深度强化学习
- 量子机器学习
- ML - 量子机器学习
- ML - 使用Python的量子机器学习
- 机器学习杂项
- ML - 性能指标
- ML - 自动工作流
- ML - 提升模型性能
- ML - 梯度提升
- ML - 自举汇聚(Bagging)
- ML - 交叉验证
- ML - AUC-ROC曲线
- ML - 网格搜索
- ML - 数据缩放
- ML - 训练和测试
- ML - 关联规则
- ML - Apriori算法
- ML - 高斯判别分析
- ML - 成本函数
- ML - 贝叶斯定理
- ML - 精度和召回率
- ML - 对抗性
- ML - 堆叠
- ML - 轮次
- ML - 感知器
- ML - 正则化
- ML - 过拟合
- ML - P值
- ML - 熵
- ML - MLOps
- ML - 数据泄露
- ML - 机器学习的盈利模式
- ML - 数据类型
- 机器学习 - 资源
- ML - 快速指南
- ML - 速查表
- ML - 面试问题
- ML - 有用资源
- ML - 讨论
机器学习中的假设
在机器学习中,假设是一个对问题的拟议解释或解决方案。它是一个暂定的假设或想法,可以使用数据进行测试和验证。在监督学习中,假设是算法用来对未见数据进行预测的模型。
机器学习中的假设通常表示为将输入数据映射到输出预测的函数。换句话说,它定义了输入和输出变量之间的关系。机器学习的目标是找到能够很好地泛化到未见数据的最佳假设。
什么是假设?
假设是一个假设或想法,用作对某事的可能解释,可以对其进行测试以查看其是否可能为真。假设通常基于某些证据。假设的一个简单示例是假设:“房价与其平方英尺成正比”。
机器学习中的假设
在机器学习中,主要是监督学习中,假设通常表示为将输入数据映射到输出预测的函数。换句话说,它定义了输入和输出变量之间的关系。机器学习的目标是找到能够很好地泛化到未见数据的最佳假设。
在监督学习中,假设(h)可以用数学方式表示如下:
$$\mathrm{h(x) \: = \: \hat{y}}$$
这里x是输入,ŷ是预测值。
假设函数(h)
机器学习模型由其假设函数定义。假设函数是一个接受输入并返回输出的数学函数。对于简单线性回归问题,假设可以表示为输入特征('x')的线性函数。
$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x}$$
其中w0和w1是参数(权重),'x'是输入特征。
对于多元线性回归问题,模型可以用数学方式表示如下:
$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x \: + \: \dotso \: + \: w_{n}x_{n}}$$
其中,
- w0, w1, ..., wn是参数。
- x1, x2, ..., xn是输入数据(特征)
- n是训练样本的总数
- h(x)是假设函数
机器学习过程试图找到参数的最佳值,以最小化成本函数。
假设空间(H)
所有可能假设的集合称为假设空间或集合。机器学习过程试图在所有可能的假设中找到最佳拟合假设。
对于线性回归模型,假设包括所有可能的线性函数。
找到最佳假设的过程称为模型训练或学习。在训练过程中,算法调整模型参数以最小化误差或损失函数,该函数衡量预测输出与实际输出之间的差异。
机器学习中假设的类型
机器学习中主要有两种类型的假设:
1. 零假设 (H0)
零假设是默认假设或解释,即输入特征与输出变量之间没有关系。在机器学习过程中,我们试图拒绝零假设以支持另一个假设。如果“p值”小于显著性水平(α),则拒绝零假设。
2. 备择假设 (H1)
备择假设是零假设的直接反驳。备择假设是一个假设,它假设输入数据和输出(目标值)之间存在显著关系。当我们拒绝零假设时,我们接受备择假设。当p值小于显著性水平时,我们拒绝零假设并接受备择假设。
机器学习中的假设检验
假设检验确定数据是否充分支持特定假设。以下是机器学习中假设检验的步骤:
- 陈述零假设和备择假设 - 定义零假设H0和备择假设H1。
- 选择显著性水平(α) - 显著性水平是当零假设为真时拒绝零假设的概率。通常,α的值为0.05 (5%)或0.01 (1%)。
- 计算检验统计量 - 根据数据和假设类型计算t统计量或z统计量。
- 确定p值 - p值衡量反对零假设的强度。如果p值小于显著性水平,则拒绝零假设。
- 做出决定 - p值小表示特征与目标变量之间存在显著关系。拒绝零假设。
如何找到最佳假设?
找到最佳假设的过程称为模型训练或学习。在训练过程中,算法调整模型参数以最小化误差或损失函数,该函数衡量预测输出与实际输出之间的差异。
使用梯度下降等优化技术来寻找最佳假设。最佳假设是最小化成本函数或误差函数的假设。
例如,在线性回归中,均方误差 (MSE) 用作成本函数 (J(w))。它定义为
$$\mathrm{J(x) \: = \: \frac{1}{2n}\displaystyle \sum \limits_{i=0}^n \left(h(x_{i}) \: - \: y_{i}\right)^{2}}$$
其中,
- h(xi)是第i个数据样本或观测值的预测输出。
- yi是第i个样本的实际目标值。
- n是训练数据的数量。
在这里,目标是找到最小化成本函数的w的最佳值。使用这些最佳参数值w表示的假设将是最佳假设。
良好假设的特性
假设在机器学习模型的成功中起着至关重要的作用。一个好的假设应该具有以下特性:
- 泛化能力 − 模型应该能够对未见数据做出准确预测。
- 简洁性 − 模型应该简洁易懂,便于理解和解释。
- 鲁棒性 − 模型应该能够处理数据中的噪声和异常值。
- 可扩展性 − 模型应该能够高效地处理大量数据。
许多类型的机器学习算法可以用来生成假设,包括线性回归、逻辑回归、决策树、支持向量机、神经网络等等。
模型训练完成后,可以用于对新数据进行预测。但是,在实际应用中使用模型之前,务必评估模型的性能。这可以通过在单独的验证集上测试模型或使用交叉验证技术来实现。