4K+ 次浏览
数据预处理的主要步骤包括数据清洗、数据集成、数据约简和数据转换,如下所示:数据清洗 - 数据清洗程序通过填充缺失值、平滑噪声数据、识别或消除异常值以及解决偏差来“清洗”数据。如果用户知道数据很脏,他们就不太可能相信某些已使用的数据挖掘结果。此外,脏数据会使挖掘阶段混乱,导致输出不稳定。一些挖掘程序有一些处理不完整或噪声数据的阶段,但它们并不总是有效的……阅读更多
5K+ 次浏览
属性是一个数据字段,定义了数据对象的特征。名词属性、维度、特征和变量在文献中对应使用。维度通常用于数据仓库。机器学习文献倾向于使用术语特征,而统计学家更喜欢使用变量。数据挖掘和数据库专家通常使用术语属性。定义用户对象的属性可以包括,例如,客户 ID、姓名和地址。给定属性的观察值称为观察值。一组可以定义给定对象的属性称为属性向量(或特征向量)。……阅读更多
363 次浏览
数据挖掘方法学有以下几个方面:挖掘各种新的知识 - 数据挖掘涵盖了广泛的数据分析和知识发现服务,从数据特征描述和辨别到关系和相关性分析、分类、回归、聚类、异常值方法、序列方法以及趋势和计算分析。这些服务可以以多种方式使用相同的数据库,并且需要开发多种数据挖掘技术。由于软件的多样性,新的挖掘服务不断涌现,使数据挖掘成为一个强大且快速发展的领域。例如,为了有效地发现数据网络中的知识,……阅读更多
754 次浏览
网络搜索引擎是一种专门的计算机服务器,用于搜索网络上的数据。用户查询的搜索结果以列表(称为命中)的形式恢复。命中可能包括网页、图像和不同类型的文件。各种搜索引擎也搜索和返回公共数据库或开放目录中可用的数据。搜索引擎与网络目录的不同之处在于,网络目录由人工编辑人员维护,而搜索引擎则通过算法或算法和人工输入的组合来工作。网络搜索引擎是大数据挖掘应用程序。有几个数据挖掘……阅读更多
411 次浏览
分类是发现定义和分类数据类别或概念的模型的过程。该模型基于对一组训练数据(即已知类别标签的数据对象)的搜索。该模型可以预测类别标签未知的对象的类别标签。生成的模型可以用多种形式表示,包括分类规则(即 IF-THEN 规则)、决策树、数值公式或神经网络。决策树是一种类似流程图的树结构,其中每个节点表示对属性值的测试,每个分支表示测试的结果……阅读更多
86 次浏览
一种解决方案是让这些公司为消费者提供多种选择退出选项,使消费者能够描述对其个人信息使用的限制,例如:消费者的个人数据根本不应用于数据挖掘。消费者的数据可以用于数据挖掘,但应删除每个消费者的身份或某些可能导致个人身份泄露的数据。数据只能用于内部挖掘。数据可以在内部和外部使用。此外,公司可以为消费者提供积极的同意,即允许消费者选择……阅读更多
2K+ 次浏览
视觉数据挖掘利用数据和知识可视化方法从大型数据集中发现隐含的有用知识。人类视觉系统由眼睛和大脑控制,大脑可以被认为是一个动态的、很大程度上并行的处理和推理引擎,包括一个巨大的知识库。视觉数据挖掘可以被认为是数据可视化和数据挖掘这两个学科的统一。它也可以与计算机图形学、多媒体系统、人机交互、模式识别和高性能计算相关联。一般来说,数据可视化和数据挖掘可以按以下方式集成:数据……阅读更多
数据挖掘的基础有几个理论,包括以下这些:数据约简 - 在这个理论中,数据挖掘的基础是减少数据表示。数据约简为了响应对大型数据库查询快速获得近似答案的需求,用速度换取确定性。数据约简方法包括奇异值分解(主成分分析背后的驱动力)、小波、回归、对数线性模型、直方图、聚类、抽样和索引树的开发。数据压缩 - 根据这个理论,数据挖掘的基础是用位编码来压缩给定信息,……阅读更多
网络使用挖掘用于从 Web 日志数据中提取有用的数据、信息和知识,并有助于识别用户访问网页的设计。在挖掘中,Web 资源的管理,个人考虑的是网站访问者的请求数据,这些数据构成 Web 服务器日志。虽然网页集的内容和机制遵循网页作者的意图,但单个请求显示了用户如何查看这些网页。网络使用挖掘可以揭示网页设计者没有暗示的关系。一个 Web 服务器……阅读更多
480 次浏览
中心是一组支持指向权威机构的链接的网页。中心页面可能并不突出,或者可能存在一些指向它们的链接;但是,它们支持指向关于一般主题的一组突出网站的链接。此类页面可能是单个主页上推荐链接的列表,包括课程主页上推荐的参考网站,或商业网站上专业整理的资源文档。中心页面在隐式地向目标主题授予权威性方面发挥着重要作用。一般来说,一个好的中心页面是指向多个好的权威机构的页面;一个好的……阅读更多