2K+ 次浏览
零售业是数据挖掘的主要应用领域,因为它收集了大量关于销售、用户购物历史、商品运输、消费和服务的记录。收集的数据量正在迅速增长,特别是因为互联网或电子商务上进行的业务变得越来越容易、易于访问和流行。如今,许多商店也有网站,用户可以在网上进行购买。一些企业,包括亚马逊(www.amazon.com),完全在线存在,没有任何实体店面。零售数据为数据挖掘提供了丰富的来源。零售数据挖掘可以帮助识别用户购买行为,发现用户购物… 阅读更多
1K+ 次浏览
在银行和金融市场中收集的金融数据相对完整、可靠且质量高,这有助于进行系统的数
有几种流行的文本检索索引技术,如倒排索引和签名文件。倒排索引 - 倒排索引是一种索引结构,它维护两个哈希索引或 B+ 树索引表:document_table 和 term_table,其中 document_table 包含一组文档记录,每个记录包括两个字段:doc_id 和 posting_list,其中 posting_list 是文档中出现的术语方法(或指向方法的指针)列表,根据某种相关性度量进行排列。term_table 包含一组术语记录,每个记录包括两个字段:term_id 和 posting_list,其中 posting_list 指定包含该术语的记录标识符列表。它… 阅读更多
4K+ 次浏览
文本检索是将非结构化文本转换为结构化格式以识别有意义的模式和新见解的过程。通过使用高级分析技术,包括朴素贝叶斯、支持向量机 (SVM) 和其他深度学习算法,组织能够探索和发现其非结构化数据中的隐藏关系。文本检索有两种方法,如下所示:文档选择 - 在文档选择方法中,查询被视为定义选择相关文档的约束。此类别的通用方法是布尔检索模型,其中文档由一组… 阅读更多
信息检索 (IR) 是一个与数据库系统多年来并行发展的领域。与数据库系统领域不同,数据库系统领域的目标是处理结构化数据的查询和事务处理,信息检索关注的是从多个基于文本的文档中组织和检索数据。由于信息检索和数据库系统分别处理不同类型的数据,因此某些数据库系统问题通常不存在于信息检索系统中,例如并发控制、恢复、事务管理和更新。有一些常见的信息检索问题通常在传统的数据库系统中不会遇到,例如非结构化… 阅读更多
201 次浏览
关于空间数据仓库的构建和利用,存在一些具有挑战性的问题。第一个挑战是从异构来源和系统统一空间信息。空间数据通常存储在不同的行业公司和政府机构中,使用各种数据格式。数据格式不仅特定于结构(例如,基于栅格与基于矢量的空间数据、面向对象与关系模型、不同的空间存储和索引结构),而且特定于供应商(例如,ESRI、MapInfo、Intergraph)。在异构空间数据的统一和交换方面已经开展了大量工作,这为空间数据集成和空间数据仓库的构建铺平了道路。… 阅读更多
23K+ 次浏览
空间数据库保存大量与空间相关的数据,包括地图、预处理的遥感或医学影像记录以及 VLSI 芯片设计数据。空间数据库具有一些与关系数据库不同的特征。它们承载拓扑和/或距离信息,通常由复杂的、多维的空间索引结构组织,这些结构由空间数据访问方法访问,并且通常需要空间推理、几何计算和空间知识表示技术。空间数据挖掘是指提取知识、空间关系或其他在空间数据库中未明确存储的有趣模式。此类挖掘需要将数据挖掘与空间数据库… 阅读更多
184 次浏览
对象标识符可以如下泛化。首先,对象标识符被泛化为对象所属的最低子类的标识符。然后,这个子类的标识符可以通过向上遍历类/子类层次结构,依次泛化为更高级别的类/子类标识符。类似地,可以通过向上遍历其关联的类/子类层次结构,将类或子类泛化为其相应的超类。由于面向对象数据库被组织成类/子类层次结构,因此对象类的一些属性或方法没有在类中明确指定,而是从更高级别的类继承而来… 阅读更多
451 次浏览
多关系聚类是根据数据对象之间的相似性,利用多个关系中的信息,将数据对象划分为一组聚类的过程。在本节中,它可以介绍 CrossClus(具有用户指导的跨关系聚类),这是一种用于多关系聚类的算法,它探讨了如何在聚类中利用用户指导以及元组 ID 传播以避免物理连接。多关系聚类的一个主要挑战是不同关系中存在过多的属性,并且通常只有一小部分属性与特定的聚类任务相关。考虑计算机科学系数据库。它可以为了对学生进行聚类,… 阅读更多
多关系数据挖掘 (MRDM) 方法搜索包含关系数据库中多个表(关系)的设计。每个表或关系表示一个实体或关系,由一组属性描述。关系之间的链接显示它们之间的关系。有一种方法可以应用传统的数据挖掘方法(假设数据驻留在单个表中),即命题化,它使用连接和聚合将多个关系数据转换为单个平面数据关系。这可能导致生成一个巨大的、不希望的“通用关系”(涉及所有属性)。此外,它可能导致… 阅读更多