
- 敏捷数据科学教程
- 敏捷数据科学 - 主页
- 敏捷数据科学 - 简介
- 方法论概念
- 敏捷数据科学 - 流程
- 敏捷工具和安装
- 敏捷数据处理
- SQL 与 NoSQL
- NoSQL 和 Dataflow 编程
- 收集和显示记录
- 数据可视化
- 数据充实
- 使用报表
- 预测的作用
- 使用 PySpark 提取特征
- 构建回归模型
- 部署预测系统
- 敏捷数据科学 - SparkML
- 修复预测问题
- 改善预测性能
- 通过敏捷和数据科学创造更好的场景
- 敏捷实施
- 敏捷数据科学有用资源
- 敏捷数据科学 - 快速指南
- 敏捷数据科学 - 资源
- 敏捷数据科学 - 讨论
构建回归模型
逻辑回归是指用于预测分类因变量的概率的机器学习算法。在逻辑回归中,因变量是二进制变量,由编码为 1 的数据组成(真和假的布尔值)。
在本章中,我们将重点介绍使用连续变量在 Python 中开发回归模型。线性回归模型的示例将重点介绍 CSV 文件的数据探索。
分类目标是预测客户是否将订阅定期存款(1/0)。
import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib.pyplot as plt plt.rc("font", size=14) from sklearn.linear_model import LogisticRegression from sklearn.cross_validation import train_test_split import seaborn as sns sns.set(style="white") sns.set(style="whitegrid", color_codes=True) data = pd.read_csv('bank.csv', header=0) data = data.dropna() print(data.shape) print(list(data.columns))
按照以下步骤在具有“Jupyter Notebook”的 Anaconda Navigator 中实现上述代码−
步骤 1−使用 Anaconda Navigator 启动 Jupyter Notebook。


步骤 2−上传 csv 文件以获得回归模型的输出,方式系统化。

步骤 3−创建一个新文件并执行上述代码行以获得预期输出。


广告