4K+ 浏览量
文本检索是将非结构化文本转换为结构化格式以识别有意义的模式和新见解的过程。通过使用高级分析技术,包括朴素贝叶斯、支持向量机 (SVM) 和其他深度学习算法,组织能够探索和发现其非结构化数据中的隐藏关系。文本检索有两种方法,如下所示 - 文档选择 - 在文档选择方法中,查询被视为定义选择相关文档的约束条件。此类别的通用方法是布尔检索模型,其中文档由一组... 阅读更多
2K+ 浏览量
信息检索 (IR) 是一个与数据库系统多年来并行发展的领域。与数据库系统领域(针对结构化数据的查询和事务处理)不同,信息检索关注的是从多个基于文本的文档中组织和检索数据。由于信息检索和数据库系统分别处理不同类型的数据,因此某些数据库系统问题通常不存在于信息检索系统中,例如并发控制、恢复、事务管理和更新。有一些常见的信息检索问题通常在传统的数据库系统中没有遇到,例如非结构化... 阅读更多
201 浏览量
在构建和利用空间数据仓库方面存在一些具有挑战性的问题。第一个挑战是统一来自异构来源和系统的空间信息。空间数据通常存储在不同的行业公司和政府机构中,使用各种数据格式。数据格式不仅特定于结构(例如,基于光栅与基于矢量的空间数据、面向对象与关系模型、不同的空间存储和索引结构),而且特定于供应商(例如,ESRI、MapInfo、Intergraph)。在异构空间数据的统一和交换方面已经进行了大量工作,这为空间数据集成和空间数据仓库构建铺平了道路。... 阅读更多
23K+ 浏览量
空间数据库保存了大量的空间相关数据,包括地图、预处理的遥感或医学影像记录以及 VLSI 芯片设计数据。空间数据库具有几个特征,使其有别于关系数据库。它们携带拓扑和/或距离信息,通常由复杂的、多维的空间索引结构组织,这些结构通过空间数据访问方法访问,并且通常需要空间推理、几何计算和空间知识表示技术。空间数据挖掘是指提取知识、空间关系或其他有趣模式,这些模式没有明确存储在空间数据库中。这种挖掘需要将数据挖掘与空间数据库... 阅读更多
184 浏览量
对象标识符可以如下泛化。首先,对象标识符被泛化为对象所属的最低子类的标识符。然后,这个子类的标识符可以通过沿着类/子类层次结构向上爬升,依次泛化为更高层的类/子类标识符。类似地,类或子类可以通过沿着其关联的类/子类层次结构向上爬升,泛化为其对应的超类()。由于面向对象的数据库被组织成类/子类层次结构,因此对象类的一些属性或方法没有在类中明确指定,而是从更高层的类继承而来... 阅读更多
451 浏览量
多关系聚类是根据数据对象之间的相似性将数据对象划分为一组集群的过程,利用多个关系中的信息。在本节中,它可以介绍 CrossClus(具有用户指导的跨关系聚类),这是一种用于多关系聚类的算法,它探讨了如何在聚类中利用用户指导以及元组 ID 传播以避免物理连接。多关系聚类的一个主要挑战是不同关系中存在过多的属性,通常只有一小部分属性与特定的聚类任务相关。考虑计算机科学系数据库。它可以为了对学生进行聚类,... 阅读更多
多关系数据挖掘 (MRDM) 方法搜索包含关系数据库中多个表(关系)的设计。每个表或关系都表示一个实体或关系,由一组属性描述。关系之间的链接显示它们之间的关系。有一种方法可以应用传统的数据挖掘方法(假设数据驻留在单个表中),即命题化,它使用连接和聚合将多个关系数据转换为单个平面数据关系。这可能导致生成一个巨大的、不希望的“通用关系”(涉及所有属性)。此外,它可能导致... 阅读更多
546 浏览量
链接挖掘存在一些挑战,如下所示 - 逻辑依赖与统计依赖 - 图链接结构中存在两种类型的依赖关系(表示对象之间的逻辑关系)和概率依赖关系(表示统计关系,例如对象属性之间的相关性,通常这些对象在逻辑上是相关的)。对这些依赖关系的连贯处理对于多关系数据挖掘也是一个挑战,其中要挖掘的数据存在于多个表中。它应该搜索对象之间的一些可能的逻辑关系,此外,标准搜索属性之间的概率依赖关系。这需要大量的... 阅读更多
931 浏览量
链接挖掘有几个任务,如下所示 - 基于链接的对象分类 - 在传统的分类方法中,对象根据定义它们的属性进行分类。基于链接的分类预测对象的类别不仅取决于其属性,还取决于其链接以及链接对象的属性。网页分类是基于链接分类的一个很好的例子。它根据单词出现(出现在页面上的单词)和锚文本(超链接单词,即当它可以点击时它可以点击的单词)预测网页的分类。... 阅读更多
906 浏览量
社交网络是由图描述的异构和多关系信息集。该图通常非常大,节点对应于对象,边对应于描述对象之间关系或连接的连接。节点和连接都具有属性。对象可以具有类标签。链接可以是单向的,并且不需要是二元的。社交网络是由图描述的异构和多关系信息集。该图通常非常大,节点对应于对象,边对应于描述对象之间关系或连接的连接。节点和连接都具有属性。对象... 阅读更多