解释 Python 中 scikit-learn 库的基础知识?


Scikit-learn,通常称为 sklearn,是 Python 中的一个库,用于实现机器学习算法。

它是一个开源库,因此可以免费使用。功能强大且健壮,因为它提供了各种工具来执行统计建模。这包括分类、回归、聚类、降维等等,借助于 Python 中强大且稳定的接口。该库构建在 Numpy、SciPy 和 Matplotlib 库之上。

可以使用以下所示的“pip”命令安装它:

pip install scikit-learn

该库专注于数据建模。

scikit-learn 中使用了许多模型,其中一些已在下面总结。

监督学习算法

监督学习算法被教导以某种方式行事。将某个期望的输出映射到给定的输入,从而提供人工监督。这可以通过标记特征(输入数据集中存在的变量)、通过向数据提供反馈(算法是否正确预测了输出,如果没有,正确的预测是什么)等等来实现。

一旦算法在这些输入数据上完全训练完成,它就可以被推广到适用于类似类型的数据。如果训练的模型具有良好的性能指标,它将获得预测从未见过输入的结果的能力。这是一种昂贵的学习算法,因为人类需要手动标记输入数据集,从而增加了额外成本。

Sklearn 帮助实现线性回归支持向量机、决策树等。

无监督学习

这与监督学习相反,即输入数据集没有标记,从而表明零人工监督。算法从这些未标记的数据中学习,提取模式,执行预测,深入了解数据并在其自身上执行其他操作。大多数情况下,现实世界中的数据是无结构且未标记的。

Sklearn 帮助实现聚类、因子分析、主成分分析、神经网络等。

聚类

将相似的数据分组到一个结构中,任何噪声(异常值或异常数据)都将落在该聚类之外,之后可以消除或忽略。

交叉验证

它是一个过程,其中原始数据集被分成两部分——“训练数据集”和“测试数据集”。当使用交叉验证时,消除了“验证数据集”的需要。“交叉验证”方法有很多变体。最常用的交叉验证方法是“k”折交叉验证。

降维

降维说明了用于减少数据集中特征数量的技术。如果数据集中特征数量较多,则通常难以对算法进行建模。如果输入数据集具有过多的变量,则机器学习算法的性能可能会大幅下降。

在特征空间中具有大量维度需要大量的内存,这意味着并非所有数据都可以在空间(数据行)上得到恰当的表示。这意味着机器学习算法的性能将受到影响,这也被称为“维度灾难”。因此建议减少数据集中输入特征的数量。因此得名“降维”。

更新于: 2020-12-11

287 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告