数据分析中的机器学习



机器学习是计算机科学的一个子领域,涉及模式识别、计算机视觉、语音识别、文本分析等任务,并且与统计学和数学优化有着密切的联系。应用包括搜索引擎的开发、垃圾邮件过滤、光学字符识别(OCR)等。数据挖掘、模式识别和统计学习领域的界限并不清晰,基本上都指的是类似的问题。

机器学习可以分为两种类型的任务:

  • 监督学习
  • 无监督学习

监督学习

监督学习指的是一种问题类型,其中输入数据定义为矩阵X,我们感兴趣的是预测响应y。其中X = {x1, x2, …, xn}n个预测变量,并且有两个值y = {c1, c2}

一个示例应用是预测网页用户点击广告的概率,使用人口统计特征作为预测变量。这通常被称为预测点击率(CTR)。然后y = {点击,不点击},预测变量可以是使用的IP地址、用户进入网站的日期、用户的城市、国家等其他可能可用的特征。

无监督学习

无监督学习处理的是在没有要学习的类别的情况下查找彼此相似的组的问题。有多种方法可以解决将预测变量映射到查找每个组中共享相似实例并彼此不同的组的任务。

无监督学习的一个示例应用是客户细分。例如,在电信行业,一个常见的任务是根据用户对电话的使用情况对用户进行细分。这将允许营销部门针对每个群体推出不同的产品。

广告