在数据挖掘中,派生模型是如何呈现的?
分类是发现一个模型的过程,该模型定义和分类数据类或概念。该模型基于对一组训练数据(即已知类标签的数据对象)的搜索。该模型可以预测类标签未知的对象的类标签。
派生模型可以用多种形式表示,包括分类规则(即 IF-THEN 规则)、决策树、数值公式或神经网络。决策树是一种类似流程图的树状结构,其中每个节点表示对属性值的测试,每个分支定义测试的结果,树叶描述类或类分布。
决策树可以转换为分类规则。神经网络在用于分类时,通常是一组类似神经元的处理单元,这些单元之间具有加权连接。构建分类模型的方法有很多,包括朴素贝叶斯分类、支持向量机和 k 近邻分类。
分类预测分类(离散、无序)标签,回归模型预测连续值函数。回归可以预测缺失或不可用的统计数据值,而不是(离散)类标签。
预测定义了数值预测和类标签预测。回归分析是一种用于数值预测的统计方法,尽管也存在多种技术。回归还围绕着根据可用数据识别分布趋势。
分类和回归可能需要在相关性分析之前进行,相关性分析试图识别对分类和回归过程有显著影响的属性。这些属性将被选择用于分类和回归过程。有多个属性是不相关的,可以不被考虑。
假设作为 AllElectronics 的销售经理,需要根据对销售活动的三种类型的响应(例如良好响应、温和响应和无响应)来定义商店中的一大批商品。
它可以根据商品的描述性特征(包括价格、品牌、产地、类型和类别)为这三个类别中的每一个派生一个模型。生成的分类应该最大限度地将每个类别与其他类别区分开来,呈现数据集的有组织图像。
决策树可以识别价格作为最能区分这三个类别的单个因素。该树可以揭示除了价格之外,有助于进一步区分每个类别的对象的特征还包括品牌和产地。这样的决策树可以帮助我们了解给定销售活动的影响,并在未来设计更有效的活动。
广告