Scikit-learn 模型构建入门:Python 机器学习库
本文介绍了在 Python 机器学习库 Scikit-learn 中进行模型构建。
这是一个免费的机器学习库。它支持多种算法,例如随机森林、向量机和 k 近邻,并可直接使用 Numpy 和 Scipy 实现。
导入数据集
import pandas Url = < specify your URL here> data=pandas.rad_csv(url)
数据探索和清洗
可以使用 head 方法根据需要指定/筛选记录。
data.head() data.head(n=4) # restricting the record to be 4
我们还可以实现数据集的最后几条记录
data.tail() data.tail(n=4) # restricting the record to be 4
现在进入数据可视化阶段
为此,我们使用 Seaborn 模块和 matplotlib 来可视化数据
import seaborn as s import matplotlib.pyplot as plt sns.set(style="whitegrid", color_codes=True) # create a countplot sns.countplot('Route To Market',data=sales_data,hue = 'Opportunity Result')
预处理数据
from sklearn import preprocessing le = preprocessing.LabelEncoder() #convert the columns into numeric values encoded_value = le.fit_transform(list of column names) print(encoded_value)
最终,我们通过训练数据集达到模型构建阶段。
结论
本文介绍了如何在 Scikit-learn(一个适用于 Python 的库)中构建模型。
广告