属性泛化规则是什么?
属性泛化依赖于以下规则:如果原始工作关系中某个属性存在大量不同的值,并且存在一组该属性的泛化运算符,则应选择并应用一个泛化运算符于该属性。
此规则基于以下推理。使用泛化服务来泛化工作关系中元组或规则内的属性值,将使规则涵盖更多初始数据元组,从而泛化其定义的概念。这对应于定义为从实例中爬升知识泛化树或概念树上升的泛化规则。
基于所包含的属性或应用程序,用户可能更倾向于让某些属性保持中等较低的抽象方法,而将其他属性泛化为较高的层次。属性泛化到多高程度的控制通常是主观的。此阶段的控制称为属性泛化控制。
如果属性泛化“过高”,则可能导致过度泛化,导致生成的规则无法进行很好的描述。换句话说,如果属性没有泛化到“足够高的级别”,则可能导致泛化不足,从而获得的规则也无法提供信息。因此,必须在面向属性的泛化中取得平衡。
有许多可能的控制泛化过程的方法,如下所示:
**属性泛化阈值控制** - 第一种技术,称为属性泛化阈值控制,要么为某些属性设置一个泛化阈值,要么为每个属性设置一个阈值。如果属性中多个不同值的个数高于属性阈值,则必须实现属性移除或属性泛化。
数据挖掘系统通常具有默认的属性阈值,通常范围为 2 到 8,并且必须允许专业人员和用户更改阈值。如果用户认为某个特定属性的泛化程度过高,则可以提高阈值。
**泛化关系阈值控制** - 第二种技术,称为泛化关系阈值控制,为泛化关系设置阈值。如果泛化关系中多个(不同)元组的个数高于阈值,则必须实现泛化。
因此,必须不再进行进一步的泛化。此类阈值也可以预设在数据挖掘系统中(通常在 10 到 30 的范围内),或者由专业人员或用户设置,并且必须可调整。例如,如果用户认为泛化关系太小,则可以增加阈值,这表示向下钻取。
广告
数据结构
网络
关系数据库管理系统(RDBMS)
操作系统
Java
iOS
HTML
CSS
Android
Python
C语言编程
C++
C#
MongoDB
MySQL
Javascript
PHP