- 大数据分析教程
- 大数据分析 - 首页
- 大数据分析 - 概述
- 大数据分析 - 特性
- 大数据分析 - 数据生命周期
- 大数据分析 - 架构
- 大数据分析 - 方法论
- 大数据分析 - 核心交付成果
- 大数据采用与规划考虑
- 大数据分析 - 主要利益相关者
- 大数据分析 - 数据分析师
- 大数据分析 - 数据科学家
- 大数据分析有用资源
- 大数据分析 - 快速指南
- 大数据分析 - 资源
- 大数据分析 - 讨论
大数据分析 - 问题定义
在本教程中,我们将开发一个项目。本教程中的每个后续章节都处理迷你项目部分中较大项目的一部分。这被认为是一个应用教程部分,将提供对现实世界问题的了解。在这种情况下,我们将从项目的**问题定义**开始。
项目描述
本项目的目标是开发一个机器学习模型,根据用户的简历(CV)文本作为输入来预测人们的小时工资。
使用上面定义的框架,很容易定义问题。我们可以将X = {x1, x2, …, xn}定义为用户的简历,其中每个特征可以是以最简单的方式出现的单词数量。然后响应是实值,我们试图预测以美元为单位的个人小时工资。
这两个考虑足以得出结论,即可以使用监督回归算法解决所提出的问题。
问题定义
**问题定义**可能是大数据分析流程中最复杂和最容易被忽视的阶段之一。为了定义数据产品将解决的问题,经验是必须的。大多数数据科学家 aspirants 在此阶段几乎没有或没有经验。
大多数大数据问题可以归类如下:
- 监督分类
- 监督回归
- 无监督学习
- 学习排序
让我们现在更多地了解这四个概念。
监督分类
给定一个特征矩阵X = {x1, x2, ..., xn},我们开发一个模型M来预测定义为y = {c1, c2, ..., cn}的不同类别。例如:给定保险公司客户的交易数据,可以开发一个模型来预测客户是否会流失。后者是一个二元分类问题,有两个类别或目标变量:流失和未流失。
其他问题涉及预测多个类别,我们可能感兴趣的是进行数字识别,因此响应向量将定义为:y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9},最先进的模型将是卷积神经网络,特征矩阵将定义为图像的像素。
监督回归
在这种情况下,问题定义与前面的示例非常相似;区别在于响应。在回归问题中,响应y ∈ ℜ,这意味着响应是实值的。例如,我们可以开发一个模型来预测个人给定其简历语料库的小时工资。
无监督学习
管理层经常渴望获得新的见解。细分模型可以提供这种洞察力,以便营销部门为不同的细分市场开发产品。开发细分模型的好方法,而不是考虑算法,而是选择与所需细分相关的特征。
例如,在电信公司中,根据客户的手机使用情况对客户进行细分非常有趣。这将涉及忽略与细分目标无关的特征,而只包含相关的特征。在这种情况下,这将选择诸如一个月内使用的短信数量、呼入和呼出分钟数等特征。
学习排序
这个问题可以被认为是一个回归问题,但它具有特殊的特性,值得单独处理。该问题涉及给定文档集合,我们试图找到给定查询的最相关的排序。为了开发监督学习算法,需要标记给定查询的排序的相关性。
需要注意的是,为了开发监督学习算法,需要标记训练数据。这意味着为了训练一个模型,例如,从图像中识别数字,我们需要手动标记大量示例。有一些网络服务可以加快此过程,并且通常用于此任务,例如亚马逊Mechanical Turk。事实证明,当提供更多数据时,学习算法会提高其性能,因此在监督学习中,标记相当数量的示例实际上是强制性的。