Mahout - 机器学习



Apache Mahout 是一个高度可扩展的机器学习库,使开发人员能够使用优化的算法。Mahout 实现流行的机器学习技术,例如推荐、分类和聚类。因此,在我们继续之前,最好先简要介绍一下机器学习。

什么是机器学习?

机器学习是计算机科学的一个分支,它涉及以这样一种方式对系统进行编程,即它们可以根据经验自动学习和改进。在这里,学习意味着识别和理解输入数据,并根据提供的数据做出明智的决策。

根据所有可能的输入来满足所有决策非常困难。为了解决这个问题,开发了算法。这些算法根据统计学、概率论、逻辑、组合优化、搜索、强化学习和控制理论的原理,从特定数据和过去的经验中构建知识。

开发的算法构成了各种应用程序的基础,例如

  • 视觉处理
  • 语言处理
  • 预测(例如,股票市场趋势)
  • 模式识别
  • 游戏
  • 数据挖掘
  • 专家系统
  • 机器人技术

机器学习是一个广阔的领域,本教程无法涵盖其所有功能。有多种方法可以实现机器学习技术,但最常用的方法是**监督学习**和**无监督学习**。

监督学习

监督学习处理从可用的训练数据中学习函数。监督学习算法分析训练数据并生成一个推断函数,该函数可用于映射新示例。监督学习的常见示例包括

  • 将电子邮件分类为垃圾邮件,
  • 根据网页内容为网页贴标签,以及
  • 语音识别。

有许多监督学习算法,例如神经网络、支持向量机 (SVM) 和朴素贝叶斯分类器。Mahout 实现朴素贝叶斯分类器。

无监督学习

无监督学习在没有任何预定义数据集进行训练的情况下,对未标记的数据进行理解。无监督学习是分析可用数据并寻找模式和趋势的极其强大的工具。它最常用于将类似的输入聚类到逻辑组中。无监督学习的常见方法包括

  • k-means
  • 自组织映射,以及
  • 层次聚类

推荐

推荐是一种流行的技术,它根据用户信息(例如之前的购买、点击和评分)提供接近的推荐。

  • 亚马逊使用此技术来显示您可能感兴趣的推荐商品列表,并从您的过去操作中提取信息。亚马逊背后有推荐引擎来捕捉用户行为,并根据您之前的操作推荐选定的商品。

  • Facebook 使用推荐技术来识别和推荐“你可能认识的人”列表。

Recommendation

分类

分类,也称为**分类**,是一种机器学习技术,它使用已知数据来确定如何将新数据分类到一组现有类别中。分类是一种监督学习形式。

  • 雅虎!和 Gmail 等邮件服务提供商使用此技术来确定是否应将新邮件分类为垃圾邮件。分类算法通过分析用户标记某些邮件为垃圾邮件的习惯来自我训练。基于此,分类器决定将来邮件是否应存放在您的收件箱中或垃圾邮件文件夹中。

  • iTunes 应用程序使用分类来准备播放列表。

Classification

聚类

聚类用于根据共同特征形成相似数据的组或集群。聚类是一种无监督学习形式。

  • 谷歌和雅虎!等搜索引擎使用聚类技术对具有相似特征的数据进行分组。

  • 新闻组使用聚类技术根据相关主题对各种文章进行分组。

聚类引擎完全遍历输入数据,并根据数据的特征,决定它应该归入哪个集群。请查看以下示例。

Clustering

我们的教程库包含各种主题的主题。当我们在 TutorialsPoint 收到新的教程时,它会由聚类引擎处理,该引擎会根据其内容决定将其归入何处。

广告