- 机器学习基础
- ML - 首页
- ML - 简介
- ML - 入门
- ML - 基本概念
- ML - 生态系统
- ML - Python 库
- ML - 应用
- ML - 生命周期
- ML - 所需技能
- ML - 实现
- ML - 挑战与常见问题
- ML - 限制
- ML - 真实案例
- ML - 数据结构
- ML - 数学
- ML - 人工智能
- ML - 神经网络
- ML - 深度学习
- ML - 获取数据集
- ML - 分类数据
- ML - 数据加载
- ML - 数据理解
- ML - 数据准备
- ML - 模型
- ML - 监督学习
- ML - 无监督学习
- ML - 半监督学习
- ML - 强化学习
- ML - 监督学习与无监督学习
- 机器学习数据可视化
- ML - 数据可视化
- ML - 直方图
- ML - 密度图
- ML - 箱线图
- ML - 相关矩阵图
- ML - 散点矩阵图
- 机器学习统计学
- ML - 统计学
- ML - 均值、中位数、众数
- ML - 标准差
- ML - 百分位数
- ML - 数据分布
- ML - 偏度和峰度
- ML - 偏差和方差
- ML - 假设
- ML中的回归分析
- ML - 回归分析
- ML - 线性回归
- ML - 简单线性回归
- ML - 多元线性回归
- ML - 多项式回归
- ML中的分类算法
- ML - 分类算法
- ML - 逻辑回归
- ML - K近邻算法 (KNN)
- ML - 朴素贝叶斯算法
- ML - 决策树算法
- ML - 支持向量机
- ML - 随机森林
- ML - 混淆矩阵
- ML - 随机梯度下降
- ML中的聚类算法
- ML - 聚类算法
- ML - 基于质心的聚类
- ML - K均值聚类
- ML - K中心点聚类
- ML - 均值漂移聚类
- ML - 层次聚类
- ML - 基于密度的聚类
- ML - DBSCAN聚类
- ML - OPTICS聚类
- ML - HDBSCAN聚类
- ML - BIRCH聚类
- ML - 亲和传播
- ML - 基于分布的聚类
- ML - 凝聚层次聚类
- ML中的降维
- ML - 降维
- ML - 特征选择
- ML - 特征提取
- ML - 后向消除法
- ML - 前向特征构造
- ML - 高相关性过滤器
- ML - 低方差过滤器
- ML - 缺失值比率
- ML - 主成分分析
- 强化学习
- ML - 强化学习算法
- ML - 利用与探索
- ML - Q学习
- ML - REINFORCE算法
- ML - SARSA强化学习
- ML - 演员-评论家方法
- 深度强化学习
- ML - 深度强化学习
- 量子机器学习
- ML - 量子机器学习
- ML - 使用Python的量子机器学习
- 机器学习杂项
- ML - 性能指标
- ML - 自动工作流
- ML - 提升模型性能
- ML - 梯度提升
- ML - 自举汇聚 (Bagging)
- ML - 交叉验证
- ML - AUC-ROC曲线
- ML - 网格搜索
- ML - 数据缩放
- ML - 训练和测试
- ML - 关联规则
- ML - Apriori算法
- ML - 高斯判别分析
- ML - 成本函数
- ML - 贝叶斯定理
- ML - 精确率和召回率
- ML - 对抗性
- ML - 堆叠
- ML - 轮次
- ML - 感知器
- ML - 正则化
- ML - 过拟合
- ML - P值
- ML - 熵
- ML - MLOps
- ML - 数据泄露
- ML - 机器学习的盈利模式
- ML - 数据类型
- 机器学习 - 资源
- ML - 快速指南
- ML - 速查表
- ML - 面试问题
- ML - 有用资源
- ML - 讨论
机器学习 - 模型
存在各种机器学习算法、技术和方法,可用于构建模型,通过使用数据解决现实生活中的问题。在本章中,我们将讨论这些不同类型的方法。
机器学习方法主要分为四种类型,根据人类监督进行分类:
在接下来的四章中,我们将详细讨论这些机器学习模型中的每一个。这里,让我们简要概述一下这些方法。
监督学习
监督学习算法或方法是最常用的ML算法。此方法或学习算法在训练过程中采用数据样本(即训练数据)及其关联的输出(即标签或响应),每个数据样本都有相应的输出。
监督学习算法的主要目标是在执行多个训练数据实例后,学习输入数据样本和对应输出之间的关联。
例如,我们有
x:输入变量和
Y:输出变量
现在,应用算法学习从输入到输出的映射函数,如下所示:
Y=f(x)
现在,主要目标将是很好地逼近映射函数,以便即使当我们有新的输入数据 (x) 时,我们也可以轻松地预测该新输入数据的输出变量 (Y)。
之所以称为监督学习,是因为整个学习过程可以被认为是在老师或监督者的监督下进行的。监督机器学习算法的示例包括决策树、随机森林、KNN、逻辑回归等。
根据ML任务,监督学习算法可以分为以下两大类:
- 分类
- 回归
分类
基于分类的任务的关键目标是根据给定的输入数据预测类别输出标签或响应。输出将基于模型在训练阶段学到的内容。众所周知,类别输出响应意味着无序和离散值,因此每个输出响应都属于特定的类别或范畴。我们还将在后续章节中详细讨论分类和相关的算法。
分类模型
以下是一些常见的分类模型:
回归
基于回归的任务的关键目标是预测输出标签或响应,这些响应是连续的数值,用于给定的输入数据。输出将基于模型在其训练阶段学到的内容。基本上,回归模型使用输入数据特征(自变量)及其对应的连续数值输出值(因变量或结果变量)来学习输入和对应输出之间的特定关联。我们将在后续章节中详细讨论回归和相关的算法。
回归模型
以下是一些常见的回归模型:
无监督学习
顾名思义,无监督学习与监督ML方法或算法相反,在无监督学习中,我们没有任何监督者提供任何形式的指导。无监督学习算法在以下场景中非常有用:我们不像在监督学习算法中那样有权使用预先标记的训练数据,并且我们希望从输入数据中提取有用的模式。
例如,可以理解为:
假设我们有:
x:输入变量,则不会有相应的输出变量,算法需要发现数据中的有趣模式进行学习。
无监督机器学习算法的示例包括K均值聚类、K近邻等。
根据ML任务,无监督学习算法可以分为以下两大类:
- 聚类
- 关联
- 降维
聚类
聚类方法是最有用的无监督ML方法之一。这些算法用于查找数据样本之间的相似性和关系模式,然后根据特征将这些样本聚类到具有相似性的组中。聚类的现实世界示例是根据客户的购买行为对客户进行分组。
聚类模型
以下是一些常见的聚类模型:
关联
另一种有用的无监督ML方法是关联,它用于分析大型数据集以查找模式,这些模式进一步表示各种项目之间的有趣关系。它也称为关联规则挖掘或市场篮子分析,主要用于分析客户购物模式。
关联模型
以下是一些常见的关联模型:
- Apriori算法
- Eclat算法
- FP-growth算法
降维
此无监督ML方法用于通过选择主要或代表性特征集来减少每个数据样本的特征变量的数量。这里出现了一个问题,那就是为什么我们需要降低维度?其背后的原因是特征空间复杂度问题,当我们开始分析和从数据样本中提取数百万个特征时,就会出现这个问题。此问题通常称为“维数灾难”。PCA(主成分分析)、K近邻和判别分析是为此目的的一些流行算法。
降维模型
以下是一些常见的降维模型:
- 主成分分析(PCA)
- 自动编码器
- 奇异值分解 (SVD)
异常检测
这种无监督机器学习方法用于发现通常不会发生的罕见事件或观测值的发生。通过使用学习到的知识,异常检测方法能够区分异常数据点和正常数据点。一些无监督算法,如聚类和KNN,可以根据数据及其特征检测异常。
半监督学习
半监督学习算法或方法既不是完全监督的,也不是完全无监督的。它们基本上介于两者之间,即监督学习和无监督学习方法。这些类型的算法通常使用少量监督学习组件,即少量预标记的注释数据,以及大量无监督学习组件,即大量未标记数据进行训练。我们可以遵循以下任何一种方法来实现半监督学习方法 -
- 第一种也是简单的方法是基于少量标记和注释的数据构建监督模型,然后通过将其应用于大量未标记数据来构建无监督模型,以获得更多标记样本。现在,在这些样本上训练模型并重复此过程。
- 第二种方法需要一些额外的努力。在这种方法中,我们可以首先使用无监督方法对类似的数据样本进行聚类,对这些组进行注释,然后使用此信息的组合来训练模型。
强化学习
强化学习方法不同于之前研究的方法,而且也很少使用。在这种类型的学习算法中,会存在一个代理,我们希望在一段时间内对其进行训练,以便它可以与特定环境交互。代理将遵循一组与环境交互的策略,然后在观察环境后,它将根据环境的当前状态采取行动。以下是强化学习方法的主要步骤 -
- 步骤 1 - 首先,我们需要为代理准备一些初始策略集。
- 步骤 2 - 然后观察环境及其当前状态。
- 步骤 3 - 接下来,根据环境的当前状态选择最佳策略并执行重要操作。
- 步骤 4 - 现在,代理可以根据其在上一步骤中采取的操作获得相应的奖励或惩罚。
- 步骤 5 - 现在,如果需要,我们可以更新策略。
- 步骤 6 - 最后,重复步骤 2-5,直到代理学会并采用最佳策略。
强化学习模型
以下是一些常见的强化学习算法 -
- Q学习
- 马尔可夫决策过程 (MDP)
- SARSA
- DQN
- DDPG
我们将在接下来的章节中详细讨论以上每个机器学习模型。