
- 敏捷数据科学教程
- 敏捷数据科学 - 首页
- 敏捷数据科学 - 简介
- 方法论概念
- 敏捷数据科学 - 流程
- 敏捷工具与安装
- 敏捷中的数据处理
- SQL 与 NoSQL
- NoSQL 与数据流编程
- 收集与显示记录
- 数据可视化
- 数据增强
- 使用报表
- 预测的作用
- 使用 PySpark 提取特征
- 构建回归模型
- 部署预测系统
- 敏捷数据科学 - SparkML
- 修复预测问题
- 改进预测性能
- 用敏捷和数据科学创造更好的场景
- 敏捷的实施
- 敏捷数据科学有用资源
- 敏捷数据科学 - 快速指南
- 敏捷数据科学 - 资源
- 敏捷数据科学 - 讨论
敏捷数据科学 - SparkML
机器学习库也称为“SparkML”或“MLLib”,包含常见的学习算法,包括分类、回归、聚类和协同过滤。
为什么学习 SparkML 用于敏捷?
Spark 正在成为构建机器学习算法和应用程序的事实上的平台。开发人员在 Spark 上工作以在 Spark 框架中以可扩展和简洁的方式实现机器算法。我们将学习机器学习的概念、其实用程序和算法以及此框架。敏捷总是选择一个能够提供快速简短结果的框架。
ML 算法
ML 算法包括常见的学习算法,例如分类、回归、聚类和协同过滤。
特征
它包括特征提取、转换、降维和选择。
管道
管道提供用于构建、评估和调整机器学习管道的工具。
流行算法
以下是几个流行的算法:
基本统计
回归
分类
推荐系统
聚类
降维
特征提取
优化
推荐系统
推荐系统是一种信息过滤系统的子类,它试图预测用户对给定项目的“评分”和“偏好”。
推荐系统包含各种过滤系统,其使用方法如下:
协同过滤
它包括根据过去的行为以及其他用户做出的类似决策构建模型。此特定过滤模型用于预测用户感兴趣的项目。
基于内容的过滤
它包括过滤项目的离散特征,以便推荐并添加具有相似属性的新项目。
在我们接下来的章节中,我们将重点关注使用推荐系统来解决特定问题并从敏捷方法论的角度改进预测性能。
广告