如何对这类数据进行泛化处理?
集合值属性可以是同构的或异构的。通常,集合值信息可以通过以下方式进行泛化:
将集合中每个值泛化到其等效的更高级别概念。
推导出集合的通常行为,包括集合中的多个元素、集合中的类型或值范围、统计数据的加权平均值或集合形成的主要集群。
此外,可以使用多个泛化运算符来分析替代泛化路径来实现泛化。在这种方法中,泛化的结果是异构集合。
示例 - 假设一个人的爱好是一个集合值属性,包含值集合{网球、曲棍球、足球、小提琴、模拟城市}。这个集合可以泛化到一组高级别概念,例如{运动、音乐、电脑游戏},或者泛化到数字 5(即集合中爱好的数量)。
此外,可以将计数与泛化值相关联,以表示有多少元素被泛化到该值,例如{运动 (3)、音乐 (1)、电脑游戏 (1)},其中运动 (3) 表示三种类型的运动,等等。
集合值属性可以泛化到集合值属性或单个值属性;如果值形成格或“层次结构”,或者如果泛化遵循多条路径,则单个值属性可以泛化到集合值属性。对这种泛化集合值属性的进一步泛化必须遵循集合中每个值的泛化路径。
列表值属性和序列值属性的泛化方式与集合值属性类似,只是列表或序列中元素的顺序应在泛化中保留。
此外,可以根据列表的一般行为对其进行泛化,包括列表的长度、列表元素的类型、值范围、数学数据的加权平均值,或者通过降低列表中不重要的组件。列表可以泛化成列表、集合或单个值。
复杂结构值属性可能包含集合、元组、列表、树、记录及其组合,其中一个结构可以在任何级别嵌套在另一个结构中。
一般来说,结构值属性可以通过多种方式进行泛化,例如在保持结构形状的同时泛化结构中的每个属性。
它用于展平结构并泛化展平的结构。
它可以通过高级别概念或聚合来总结低级别结构。
它可以返回结构的类型或概述。
广告