度量可以组织成三个元素,包括分布式、代数和整体式。这取决于所使用的聚合函数的类型。分布式 - 如果可以按如下所示以分布式方式计算聚合函数,则该函数是分布式的。假设数据独立地划分为 n 个集合。它可以对每个分区使用该服务,从而产生 n 个聚合值。如果使用该函数对 n 个聚合值的结果与使用该函数对整个数据集(无需分区)的结果相同,则可以以分布式方式计算该函数。例如,count() 可以…… 阅读更多
基于熵的离散化是一种有监督的自顶向下分裂方法。它在计算和保存分割点(用于分离属性范围的数据值)时会探索类分布数据。它可以离散化统计属性 A,该方法选择熵最小的 A 值作为分割点,并递归地划分结果区间以获得分层离散化。特定的离散化形成 A 的概念层次结构。令 D 包括由一组属性和一个类标签属性描述的数据元组。类标签属性支持每个元组的类数据。基于熵的 A 离散化的基本方法是…… 阅读更多