分类是如何工作的?
分类是一种数据挖掘方法,它将元素分配到一组数据中,以帮助进行更有效的预测和分析。当有两个目标类别时,通常称为二元分类。
当可以预测超过两个类别时,尤其是在模式识别问题中,这被定义为多项式分类。然而,多项式分类可用于分类响应数据,其中需要预测哪些类别在各种元素中具有最大概率的实例。
数据分类是一个两阶段的过程。在第一阶段,构建一个分类器,定义预定的数据集类别或概念集合。这是学习阶段(或训练阶段),其中分类算法通过分析或“理解”由数据库元组及其相关的类标签组成的训练集来开发分类器。
元组 X 由一个 n 维属性向量 X = (x1, x2, … xn) 描述,定义了从 n 个数据库属性 A1, A2, ... An 对元组进行的 n 次测量。
每个元组 X 都被认为属于由另一个数据库属性(称为类标签属性)决定的预定义类。类标签属性是离散值且无序的。它是分类的,因为每个值都表示一个类别或分类。
构成训练集的单个元组被定义为训练元组,并从正在分析的数据库中选择。在分类框架中,数据元组可以定义为样本、实例、数据点或对象。
因为每个训练元组的类标签都是已知的,所以这一步称为监督学习。它可以与无监督学习(或聚类)进行比较,在无监督学习中,每个训练元组的类标签是未知的,并且事先无法知道要学习的类别数量或集合。
在第二阶段,可以使用该模型进行分类。首先,预测分类器的预测精度。如果使用训练集来计算分类器的精度,则此估计可能过于乐观,因为分类器倾向于过度拟合记录(即,在学习过程中,它可能会合并训练记录中的一些特定异常,而这些异常在完整的通用数据集中不存在)。
因此,使用测试集,由测试元组及其相关的类标签组成。这些元组是从通用数据集中随机选择的。它们与训练元组分开,这意味着它们不用于构建分类器。
广告