Scikit-learn 模型构建入门:Python 机器学习库


本文介绍了在 Python 机器学习库 Scikit-learn 中进行模型构建。

这是一个免费的机器学习库。它支持多种算法,例如随机森林、向量机和 k 近邻,并可直接使用 Numpy 和 Scipy 实现。

导入数据集

import pandas
Url = < specify your URL here>
data=pandas.rad_csv(url)

数据探索和清洗

可以使用 head 方法根据需要指定/筛选记录。

data.head()
data.head(n=4) # restricting the record to be 4

我们还可以实现数据集的最后几条记录

data.tail()
data.tail(n=4) # restricting the record to be 4

现在进入数据可视化阶段

为此,我们使用 Seaborn 模块和 matplotlib 来可视化数据

import seaborn as s
import matplotlib.pyplot as plt
sns.set(style="whitegrid", color_codes=True)
# create a countplot
sns.countplot('Route To Market',data=sales_data,hue = 'Opportunity Result')

预处理数据

from sklearn import preprocessing
le = preprocessing.LabelEncoder()
#convert the columns into numeric values
encoded_value = le.fit_transform(list of column names)
print(encoded_value)

最终,我们通过训练数据集达到模型构建阶段。

结论

本文介绍了如何在 Scikit-learn(一个适用于 Python 的库)中构建模型。

更新日期:2019 年 8 月 29 日

216 次浏览

开始您的 职业生涯

完成课程以获得认证

开始
广告