2K+ 次浏览
零售业是数据挖掘的主要应用领域,因为它收集了大量关于销售、用户购物历史、商品运输、消费和服务的记录。数据收集量持续快速增长,尤其是因为互联网商业(即电子商务)的便捷性、可访问性和普及率不断提高。如今,许多商店也拥有网站,用户可以在网上进行购物。一些企业,包括亚马逊(www.amazon.com),完全存在于网上,没有任何实体店。零售数据为数据挖掘提供了丰富的资源。零售数据挖掘可以帮助识别用户的购买行为,查找用户的购物……阅读更多
1K+ 次浏览
在银行和金融市场中收集的金融数据相对完整、可靠且质量高,这有利于系统的数
有几种流行的文本检索索引技术,例如倒排索引和签名文件。倒排索引 - 倒排索引是一种索引结构,它维护两个哈希索引或B+树索引表:document_table和term_table,其中document_table包含一组文档记录,每个记录包括两个字段:doc_id和posting_list,其中posting_list是出现在文档中的方法(或指向方法的指针)列表,并根据某种相关性度量进行排列。term_table包含一组术语记录,每个记录包括两个字段:term_id和posting_list,其中posting_list指定出现该术语的记录标识符列表。它……阅读更多
4K+ 次浏览
文本检索是将非结构化文本转换为结构化格式以识别有意义的模式和新见解的过程。通过使用高级分析技术,包括朴素贝叶斯、支持向量机 (SVM) 和其他深度学习算法,组织能够探索和发现其非结构化数据中的隐藏关系。文本检索有两种方法,如下所示:文档选择 - 在文档选择方法中,查询被视为定义选择相关文档的约束条件。此类别的通用方法是布尔检索模型,其中文档由一组……阅读更多
信息检索 (IR) 是一个与数据库系统并行发展多年的领域。与数据库系统领域(针对结构化数据的查询和事务处理)不同,信息检索关注的是从多个基于文本的文档中组织和检索数据。由于信息检索和数据库系统分别处理不同类型的数据,因此某些数据库系统问题通常不会出现在信息检索系统中,例如并发控制、恢复、事务管理和更新。有一些常见的信息检索问题通常不会在传统的数据库系统中遇到,例如非结构化……阅读更多
201 次浏览
关于空间数据仓库的构建和利用,存在一些具有挑战性的问题。第一个挑战是从异构来源和系统统一空间信息。空间数据通常存储在不同的行业公司和政府机构中,使用各种数据格式。数据格式不仅是结构特定的(例如,基于光栅的与基于矢量的空间数据、面向对象的与关系模型、不同的空间存储和索引结构),而且是厂商特定的(例如,ESRI、MapInfo、Intergraph)。在异构空间数据的统一和交换方面已经进行了大量的研究,这为空间数据集成和空间数据仓库的构建铺平了道路。这……阅读更多
23K+ 次浏览
空间数据库保存大量与空间相关的数据,包括地图、预处理的遥感或医学影像记录以及 VLSI 芯片设计数据。空间数据库具有许多区别于关系数据库的特性。它们携带拓扑和/或距离信息,通常由复杂的、多维空间索引结构组织,这些结构通过空间数据访问方法访问,并且通常需要空间推理、几何计算和空间知识表示技术。空间数据挖掘是指提取空间数据库中未明确存储的知识、空间关系或其他有趣的模式。这种挖掘需要将数据挖掘与空间数据库……阅读更多
184 次浏览
对象标识符可以按如下方式泛化。首先,对象标识符被泛化到对象所属的最低子类的标识符。然后,这个子类的标识符又可以通过向上遍历类/子类层次结构来泛化到更高层次的类/子类标识符。类似地,一个类或子类可以通过向上遍历其关联的类/子类层次结构来泛化到其相应的超类。由于面向对象数据库被组织成类/子类层次结构,因此对象类的一些属性或方法不是在类中明确指定,而是从更高层次的类继承的……阅读更多
451 次浏览
多关系聚类是基于数据对象的相似性,利用多个关系中的信息,将数据对象划分为一组集群的过程。在本节中,它可以介绍 CrossClus(具有用户指导的跨关系聚类),这是一种多关系聚类算法,它探讨了如何在聚类中利用用户指导和元组 ID 传播来避免物理连接。多关系聚类的一个主要挑战是不同关系中存在过多的属性,通常只有一小部分属性与特定的聚类任务相关。考虑计算机科学系数据库。它可以对学生进行聚类……阅读更多
多关系数据挖掘 (MRDM) 方法搜索包含来自关系数据库的多个表(关系)的设计。每个表或关系都表示一个实体或关系,由一组属性描述。关系之间的链接显示它们之间的关系。一种应用传统数据挖掘方法(假设数据驻留在单个表中)的方法是命题化,它使用连接和聚合将多个关系数据转换为单个扁平数据关系。这可能导致生成巨大的、不希望的“通用关系”(涉及所有属性)。此外,它可能导致……阅读更多