什么是数据分类?


分类是一种数据挖掘方法,用于预测数据实例的团队成员资格。它是一个两步过程。第一步,构建一个模型,定义一组预定的数据类或方法。该模型是通过考虑由属性定义的数据库元组来开发的。

每个元组都被认为属于一个预定义的类,由其中一个属性(称为类标签属性)决定。在分类的框架中,数据元组也称为样本、示例或对象。用于开发模型的分析数据元组共同构成训练数据集。构成训练集的单个元组被称为训练样本,并从样本总体中随机选择。

由于每个训练样本的类标签都已知,因此此过程也称为监督学习。在无监督学习中,训练样本的类标签是匿名的,并且要学习的多个类可能事先未知。

学习到的模型以分类规则、决策树或数值公式的形式描述。例如,给定一个用户信用数据数据库,可以学习分类规则以将用户识别为具有最佳或良好的信用评级。这些规则可用于对未来的数据样本进行分类,并有助于更好地理解数据库内容。

留出法是一种简单的技术,它应用于一组具有类标签的样本的测试集。这些样本是随机选择的,并且独立于训练样本。模型在给定测试集上的效率是模型正确分类的测试集样本的百分比。对于每个测试样本,将已知的类标签与学习模型对该样本的类预测进行比较。

如果模型的效率估计依赖于训练数据集,则该估计可能过于乐观,因为学习模型容易过度拟合数据(即,它可能包含了训练数据中的一些特定异常,而这些异常在整个样本总体中不存在)。因此,使用测试集。

  • **学习** - 训练数据由分类算法进行分析。因此,类标签属性是信用评级,学习到的模型或分类器以分类规则的形式描述。

  • **分类** - 测试数据用于衡量分类规则的效率。如果效率被认为是可以接受的,则这些规则可用于对新的数据元组进行分类。

更新于: 2021-11-22

408 次浏览

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告