机器学习 - 基本概念

众所周知，机器学习是人工智能的一个子集，它涉及训练计算机算法以自动学习数据中的模式和关系。以下是机器学习的一些基本概念：

数据

数据是机器学习的基础。没有数据，算法就没有学习对象。数据可以有多种形式，包括结构化数据（如电子表格和数据库）和非结构化数据（如文本和图像）。用于训练机器学习算法的数据的质量和数量是至关重要的因素，它们会显著影响算法的性能。

特征

在机器学习中，特征是用于描述输入数据的变量或属性。目标是选择最相关和信息丰富的特征，以便算法能够做出准确的预测或决策。特征选择是机器学习过程中的一个关键步骤，因为算法的性能在很大程度上取决于所用特征的质量和相关性。

模型

机器学习模型是输入数据（特征）和输出（预测或决策）之间关系的数学表示。模型是使用训练数据集创建的，然后使用单独的验证数据集进行评估。目标是创建一个能够准确推广到新的、未见数据上的模型。

训练

训练是教机器学习算法做出准确预测或决策的过程。这是通过向算法提供大型数据集并允许它从数据中的模式和关系中学习来完成的。在训练期间，算法会调整其内部参数，以最大程度地减少其预测输出与实际输出之间的差异。

测试

测试是评估机器学习算法在之前从未见过的单独数据集上的性能的过程。目标是确定算法对新的、未见数据进行泛化的程度。如果算法在测试数据集中表现良好，则认为它是一个成功的模型。

过拟合

过拟合是指机器学习模型过于复杂，并且过于拟合训练数据。这可能导致在新的、未见数据上的性能下降，因为模型过于专门化于训练数据集。为了防止过拟合，重要的是使用验证数据集来评估模型的性能，并使用正则化技术来简化模型。

欠拟合

欠拟合是指机器学习模型过于简单，无法捕获数据中的模式和关系。这可能导致训练和测试数据集上的性能下降。为了防止欠拟合，我们可以使用多种技术，例如增加模型复杂度、收集更多数据、减少正则化和特征工程。

需要注意的是，防止欠拟合是在模型复杂度和可用数据量之间进行权衡。增加模型复杂度可以帮助防止欠拟合，但是如果没有足够的数据来支持增加的复杂度，则可能会导致过拟合。因此，重要的是监控模型的性能并根据需要调整复杂度。

为什么要让机器学习？以及何时让机器学习？

我们已经讨论了机器学习的需求，但另一个问题出现了，在什么情况下我们必须让机器学习？在某些情况下，我们需要机器以高效和庞大的规模做出数据驱动的决策。以下是一些使机器学习更有效的场景：

缺乏人类专业知识

我们希望机器学习并做出数据驱动的决策的第一个场景可能是缺乏人类专业知识的领域。例如，在未知区域或空间行星中的导航。

动态场景

有些场景本质上是动态的，即它们会随着时间的推移而不断变化。对于这些场景和行为，我们希望机器学习并做出数据驱动的决策。例如，组织中的网络连接和基础设施可用性。

难以将专业知识转化为计算任务

在许多领域，人类都拥有自己的专业知识；但是，他们无法将这种专业知识转化为计算任务。在这种情况下，我们需要机器学习。例如，语音识别、认知任务等领域。

机器学习模型

在讨论机器学习模型之前，我们需要了解米切尔教授给出的以下ML正式定义：

“如果计算机程序在某些任务类T中，根据性能度量P，其性能随着经验E而提高，则称该计算机程序从经验E中学习。”

上述定义基本上关注三个参数，也是任何学习算法的主要组成部分，即任务(T)、性能(P)和经验(E)。在这种情况下，我们可以将此定义简化为：

ML是AI的一个领域，它包含以下学习算法：

提高其性能(P)
在执行某些任务(T)时
随着时间的推移以及经验(E)

基于以上，下图表示一个机器学习模型：

现在让我们更详细地讨论它们：

任务(T)

从问题的角度来看，我们可以将任务T定义为要解决的现实世界问题。问题可以是任何东西，例如在特定位置找到最佳房屋价格或找到最佳营销策略等。另一方面，如果我们谈论机器学习，则任务的定义是不同的，因为很难通过传统的编程方法解决基于ML的任务。

当任务T基于过程并且系统必须遵循在数据点上进行操作的过程时，则称该任务T为基于ML的任务。基于ML的任务示例包括分类、回归、结构化注释、聚类、转录等。

经验 (E)

顾名思义，它是从提供给算法或模型的数据点中获得的知识。一旦提供了数据集，模型将迭代运行并学习一些内在模式。这样获得的学习称为经验 (E)。类比人类学习，我们可以将其视为人类从各种属性（如情境、关系等）中学习或获得经验的情况。监督学习、无监督学习和强化学习是一些学习或获得经验的方法。我们的机器学习模型或算法获得的经验将用于解决任务 T。

性能 (P)

机器学习算法应该随着时间的推移执行任务并积累经验。衡量机器学习算法是否按预期执行的指标是其性能 (P)。P 本质上是一个定量指标，用于说明模型如何使用其经验 E 执行任务 T。许多指标有助于理解机器学习性能，例如准确率得分、F1 得分、混淆矩阵、精确率、召回率、灵敏度等。

打印页面