分类是如何工作的？

数据挖掘数据结构数据库

分类是一种数据挖掘方法，它将元素分配到一组数据中，以帮助进行更有效的预测和分析。当有两个目标类别时，通常称为二元分类。

当可以预测超过两个类别时，尤其是在模式识别问题中，这被定义为多项式分类。然而，多项式分类可用于分类响应数据，其中需要预测哪些类别在各种元素中具有最大概率的实例。

数据分类是一个两阶段的过程。在第一阶段，构建一个分类器，定义预定的数据集类别或概念集合。这是学习阶段（或训练阶段），其中分类算法通过分析或“理解”由数据库元组及其相关的类标签组成的训练集来开发分类器。

元组 X 由一个 n 维属性向量 X = (x₁, x₂, … x_n) 描述，定义了从 n 个数据库属性 A₁, A₂, ... A_n 对元组进行的 n 次测量。

每个元组 X 都被认为属于由另一个数据库属性（称为类标签属性）决定的预定义类。类标签属性是离散值且无序的。它是分类的，因为每个值都表示一个类别或分类。

构成训练集的单个元组被定义为训练元组，并从正在分析的数据库中选择。在分类框架中，数据元组可以定义为样本、实例、数据点或对象。

因为每个训练元组的类标签都是已知的，所以这一步称为监督学习。它可以与无监督学习（或聚类）进行比较，在无监督学习中，每个训练元组的类标签是未知的，并且事先无法知道要学习的类别数量或集合。

在第二阶段，可以使用该模型进行分类。首先，预测分类器的预测精度。如果使用训练集来计算分类器的精度，则此估计可能过于乐观，因为分类器倾向于过度拟合记录（即，在学习过程中，它可能会合并训练记录中的一些特定异常，而这些异常在完整的通用数据集中不存在）。

因此，使用测试集，由测试元组及其相关的类标签组成。这些元组是从通用数据集中随机选择的。它们与训练元组分开，这意味着它们不用于构建分类器。

基尼系数

更新于：2022年2月16日

933 次浏览

开启你的职业生涯

完成课程获得认证

广告