无监督机器学习



什么是无监督机器学习?

无监督学习,也称为无监督机器学习,是一种机器学习类型,它在没有人类监督的情况下学习数据中的模式和结构。无监督学习使用机器学习算法来分析数据并发现未标记数据集中的潜在模式。

有监督机器学习不同,无监督机器学习模型是在未标记的数据集上训练的。在没有像有监督学习算法那样拥有预先标记的训练数据,并且我们希望从输入数据中提取有用模式的情况下,无监督学习算法非常方便。

我们可以将无监督学习总结为:

  • 一种机器学习方法或类型,
  • 使用机器学习算法
  • 在没有人类监督的情况下
  • 发现数据中的隐藏模式或结构。

无监督机器学习中使用了许多方法。一些方法包括关联、聚类和降维。一些无监督机器学习算法的示例包括K均值聚类、K近邻等。

在回归中,我们训练机器预测未来值。在分类中,我们训练机器将未知对象分类到我们定义的类别之一中。简而言之,我们一直在训练机器,以便它可以为我们的数据X预测Y。鉴于一个庞大的数据集并且没有估计类别,我们很难使用有监督学习来训练机器。如果机器可以查看和分析运行到几GB和TB的大数据并告诉我们此数据包含这么多不同的类别,那该怎么办?

例如,考虑选民数据。通过考虑每个选民的一些输入(在AI术语中称为特征),让机器预测有这么多选民会投票给X政党,而这么多人会投票给Y,等等。因此,一般来说,我们是在询问机器,给定一大组数据点X,“你能告诉我关于X的信息吗?”。或者它可能是一个类似“我们可以从X中找出五个最佳组?”的问题。或者它甚至可能像“X中最常一起出现的三个特征是什么?”。

这正是无监督学习的全部内容。

无监督学习是如何工作的?

在无监督学习中,机器学习算法(称为自学习算法)在未标记的数据集上进行训练,即输入数据未分类。根据任务或机器学习问题(如聚类、关联等)和数据集,选择合适的算法进行训练。

在训练过程中,算法根据数据点的相似性、模式和差异学习并推断自己的规则。算法在没有任何标签(目标值)或预训练的情况下学习。

算法使用数据集进行此训练过程的结果是机器学习模型。由于数据集是未标记的(没有目标值,没有人工监督),因此该模型是无监督机器学习模型。

现在,模型已准备好执行无监督学习任务,例如聚类、关联或降维。

无监督学习模型适用于复杂的任务,例如将大型数据集组织成集群。

无监督机器学习方法

无监督学习方法或途径大致分为三类:聚类、关联和降维。让我们简要讨论这些方法并列出一些相关的算法:

1. 聚类

聚类 是一种用于将一组对象或数据点根据其相似性分组到集群中的技术。此技术的目的是确保同一集群中的数据点应比其他集群中的数据点具有更多相似性。

聚类有时称为无监督分类,因为它产生的结果与分类相同,但没有预定义的类别。

聚类是一种流行的无监督学习方法。有几种用于聚类的无监督学习算法,例如:

  • K均值聚类 - 该算法用于将数据点分配到K个集群中的一个,这基于它与集群中心的距离。在将每个数据点分配到集群后,会重新计算新的质心。这是一个迭代过程,直到质心不再发生变化。这表明该算法是有效的,并且集群是稳定的。
  • 均值漂移算法 - 这是一种聚类技术,通过查找高数据密度区域来识别集群。这是一个迭代过程,其中每个数据点的均值都向数据的密度最大区域移动。
  • 高斯混合模型 - 这是一种概率模型,它是多个高斯分布的组合。这些模型用于确定给定数据属于哪个确定。

2. 关联规则挖掘

这是一种基于规则的技术,用于发现大型数据集中参数之间的关联。它通常用于市场购物篮分析,允许公司做出决策和推荐引擎。用于关联规则挖掘的主要算法之一是Apriori算法。

Apriori算法

Apriori算法 是一种用于无监督学习的技术,用于识别经常重复的数据点并在交易数据中发现关联规则。

3. 降维

顾名思义,降维 用于通过选择一组主要或代表性特征来减少每个数据样本的特征变量的数量。

这里出现了一个问题,那就是为什么我们需要降低维度?其背后的原因是特征空间复杂度问题,当我们开始分析和提取数百万个数据样本的特征时,就会出现这种问题。此问题通常称为“维数灾难”。无监督学习中用于降维的一些流行算法是:

  • 主成分分析
  • 缺失值比率
  • 奇异值分解
  • 自动编码器

无监督学习算法

算法是机器学习模型训练中非常重要的部分。机器学习算法是一组程序遵循的指令,用于分析数据并产生结果。对于特定任务,会选择合适的机器学习算法并在数据上进行训练。

无监督学习中使用的算法通常属于以下三类之一:聚类、关联或降维。以下是最常用的无监督学习算法:

无监督学习的优点

无监督学习具有许多优点,使其在各种任务中特别有用 -

  • 无需标记数据 - 无监督学习不需要标记数据集进行训练,这使其使用起来更容易且更便宜。
  • 发现隐藏模式 - 它有助于识别大型数据中的模式和关系,这可以带来洞察力和高效的决策。
  • 适用于复杂任务 - 它可有效用于各种复杂任务,如聚类、异常检测和降维。

无监督学习的缺点

虽然无监督学习有很多优点,但在没有人工干预的情况下训练模型时也可能遇到一些挑战。无监督学习的一些缺点包括

  • 难以评估 - 由于没有标记数据和预定义的目标,因此难以评估无监督学习算法的性能。
  • 结果可能不准确 - 无监督学习算法的结果可能不太准确,尤其是在输入数据存在噪声的情况下,并且由于数据未标记,算法不知道确切的输出。

无监督学习的应用

无监督学习为企业提供了识别海量数据中模式的途径。无监督学习的一些现实应用包括

  • 客户细分 - 在商业和零售分析中,无监督学习用于根据客户的购买、过去活动或偏好将其分组为不同的细分市场。
  • 异常检测 - 无监督学习算法用于异常检测以识别异常模式,这对于金融交易中的欺诈检测和网络安全至关重要。
  • 推荐引擎 - 无监督学习算法有助于分析大型客户数据以获得有价值的见解和了解模式。这可以帮助进行目标营销和个性化。
  • 自然语言处理 - 无监督学习算法用于各种应用。例如,谷歌过去曾使用它对新闻部分的文章进行分类。

什么是异常检测?

这种无监督的机器学习方法用于找出罕见事件或观测值的发生情况,这些事件或观测值通常不会发生。通过利用学习到的知识,异常检测方法能够区分异常数据点和正常数据点。

一些无监督算法,如聚类和KNN,可以根据数据及其特征检测异常。

监督学习与无监督学习

监督学习算法使用标记数据进行训练。但可能存在数据未标记的情况,那么如何从未标记且杂乱无章的数据中获取洞察力呢?好吧,为了解决这些类型的情况,使用无监督学习。我们在监督学习与无监督学习章节中对监督学习与无监督学习之间的比较进行了详细分析。

广告