201 次浏览
关于空间数据仓库的构建和利用,存在着一些具有挑战性的问题。第一个挑战是从异构数据源和系统中统一空间信息。空间数据通常存储在不同的行业公司和政府机构中,使用各种数据格式。数据格式不仅特定于结构(例如,基于栅格的与基于矢量的空间数据,面向对象的与关系模型,不同的空间存储和索引结构),而且特定于供应商(例如,ESRI、MapInfo、Intergraph)。在异构空间数据的统一和交换方面已经进行了大量工作,这为空间数据集成和空间数据仓库的构建铺平了道路。这... 阅读更多
23K+ 次浏览
空间数据库保存了大量的与空间相关的数据,包括地图、预处理的遥感或医学影像记录以及 VLSI 芯片设计数据。空间数据库具有一些使其区别于关系数据库的特性。它们包含拓扑和/或距离信息,通常由复杂的、多维的空间索引结构组织,这些结构可以通过空间数据访问方法访问,并且通常需要空间推理、几何计算和空间知识表示技术。空间数据挖掘是指从空间数据库中提取知识、空间关系或其他有趣的模式,这些模式没有明确存储在空间数据库中。这种挖掘需要将数据挖掘与空间数据库... 阅读更多
184 次浏览
对象标识符可以如下泛化。首先,将对象标识符泛化为对象所属的最低子类的标识符。然后,这个子类的标识符又可以反过来通过向上遍历类/子类层次结构泛化为更高层次的类/子类标识符。类似地,可以通过向上遍历其关联的类/子类层次结构,将类或子类泛化为其对应的超类(s)。由于面向对象数据库被组织成类/子类层次结构,因此对象类的一些属性或方法没有在类中明确指定,而是从更高层次的类继承而来... 阅读更多
451 次浏览
多关系聚类是基于数据对象之间的相似性,利用多个关系中的信息,将数据对象划分为一组集群的过程。在本节中,它可以介绍 CrossClus(具有用户指导的跨关系聚类),这是一种用于多关系聚类的算法,它探讨了如何在聚类中利用用户指导以及元组 ID 传播来避免物理连接。多关系聚类的一个主要挑战是,不同关系中存在过多的属性,通常只有一小部分与特定的聚类任务相关。考虑计算机科学系的数据库。它可以为了对学生进行聚类,... 阅读更多
2K+ 次浏览
多关系数据挖掘 (MRDM) 方法搜索包含来自关系数据库的多个表(关系)的设计。每个表或关系代表一个实体或关系,由一组属性描述。关系之间的链接显示它们之间的关系。有一种方法可以应用传统的数据挖掘方法(假设数据驻留在单个表中),即命题化,它使用连接和聚合将多个关系数据转换为单个扁平数据关系。这可能导致生成一个巨大的、不希望的“通用关系”(涉及所有属性)。此外,它可能导致... 阅读更多
547 次浏览
链接挖掘有几个挑战,如下所示 -逻辑与统计依赖性 -两种类型的依赖性存在于图链接结构(表示对象之间的逻辑关系)和概率依赖性(表示统计关系,例如对象属性之间的相关性,其中通常这些对象在逻辑上相关)。对这些依赖性的连贯处理对于多关系数据挖掘也是一个挑战,其中要挖掘的数据存在于多个表中。它应该搜索对象之间可能存在的多种逻辑关系,此外,标准搜索属性之间的概率依赖关系。这需要大量的... 阅读更多
932 次浏览
链接挖掘有几个任务,如下所示 -基于链接的对象分类 -在传统的分类方法中,对象根据定义它们的属性进行分类。基于链接的分类预测对象的类别不仅取决于其属性,还取决于其链接以及链接对象的属性。网页分类是基于链接的分类的一个很好的例子。它根据单词出现(出现在页面上的单词)和锚文本(超链接单词,即当可以点击时可以点击的单词)预测网页的分类... 阅读更多
906 次浏览
社交网络是由图描述的异构和多关系信息集。该图通常非常大,节点对应于对象,边对应于描述对象之间关系或连接的连接。节点和连接都有属性。对象可以具有类标签。链接可以是单向的,并且不需要是二元的。社交网络是由图描述的异构和多关系信息集。该图通常非常大,节点对应于对象,边对应于描述对象之间关系或连接的连接。节点和连接都有属性。对象... 阅读更多
272 次浏览
频繁子结构的发现通常包括两个步骤。第一步,可以生成频繁子结构候选。在第二步中测试每个候选的频率。大多数关于频繁子结构发现的研究都集中在第一步的优化上,因为第二步涉及子图同构测试,其计算复杂度过高(即 NP 完全)。有各种方法可以进行频繁子结构挖掘,如下所示 -基于 Apriori 的方法 -基于 Apriori 的频繁子结构挖掘算法与基于 Apriori 的频繁项集挖掘算法发送相同的特征。频繁图的搜索从... 阅读更多
3K+ 次浏览
周期性分析是周期性模式的挖掘,即在时间相关序列数据中搜索重复出现的模式。周期性分析可用于多个重要领域。例如,季节、潮汐、行星轨迹、每日电力消耗、每日交通模式和每周电视节目都呈现出某些周期性模式。周期性分析是在时间序列数据上实现的,其中包括通常以相等时间间隔(例如,每小时、每天、每周)测量的值或事件序列。它也可以应用于其他时间相关的序列数据,其中值或事件可能发生在不相等的时间间隔或任何时间(例如,在线交易)。... 阅读更多