分类数据的离散化和概念层次生成技术是什么?
分类数据是离散数据。分类属性具有固定数量的 distinct 值,这些值之间没有顺序关系,例如地理区域、职位类别和项目类型。生成分类数据概念层次结构的方法如下:
用户或专家在模式级别显式指定属性的部分排序 - 分类属性或维度的概念层次结构通常包含一组属性。用户或专业人员可以通过在模式级别定义属性的部分或全部排序来表示概念层次结构。
例如,关系数据库或数据仓库的维度区域可以包含以下属性组:街道、城市、省份或州和国家。可以通过在模式级别定义这些属性之间的全序来表示层次结构,例如街道 < 城市 < 省份或州 < 国家。
通过显式数据分组指定层次结构的一部分 - 这是手动定义概念层次结构的一部分。在大型数据库中,通过显式值枚举来表示整个概念层次结构是不现实的。相反,它可以简单地表示中间级别数据的一小部分的显式分组。
指定一组属性,但不指定它们的部分排序 - 用户可以描述构成概念层次结构的一组属性,但可以不显式声明它们的部分排序。系统可以尝试自动生成属性顺序以构建有意义的概念层次结构。
基于此观察,可以根据给定属性集中每个属性的多个 distinct 值自动创建概念层次结构。具有最多 distinct 值的属性位于层次结构的最低级别。属性的 distinct 值越少,它在生成的层次结构中就越高。这种启发式规则在某些情况下运行良好。如有必要,用户或专业人员可以在分析生成的层次结构后使用一些局部交换或调整。
仅指定部分属性集 - 用户可能对需要包含在层次结构中的内容只有一个模糊的概念,例如,用户名可以只指定名字和姓氏,而不包括中间名。这种部分指定的层次结构通过在数据库设计中安装数据语义来管理,以将具有快速语义连接的属性组合在一起。
广告