3K+ 次查看
属性子集选择通过消除不相关或冗余属性(或维度)来减小数据集大小。属性子集选择的目的是发现最小属性集,使得所得数据类概率分布尽可能接近使用所有属性访问的原始分布。在减少的属性集上进行数据挖掘具有额外的好处。它减少了在发现的模式中出现的多个属性,从而使模式更容易理解。对于 n 个属性,存在 2n 个可能的子集。对属性的最佳子集进行穷举搜索可能非常昂贵…… 阅读更多
4K+ 次查看
数据挖掘应用于大型数据库中的选定数据。当对海量数据进行数据分析和挖掘时,处理时间非常长,这使其变得不切实际且不可行。为了减少数据分析的处理时间,可以使用数据约简技术来获得数据集的约简表示,其体积要小得多,同时保持原始数据的完整性。通过减少数据,提高了数据挖掘过程的效率,从而产生相同的分析结果。数据约简旨在定义…… 阅读更多
1K+ 次查看
在数据转换中,数据被转换或组合成适合挖掘的形式。数据转换可能包括以下内容:平滑 - 它可以去除数据中的噪声。此类方法包括分箱、回归和聚类。聚合 - 在聚合中,对数据应用汇总或聚合操作。例如,可以对每日销售数据进行聚合以计算每月和每年的总额。此阶段通常用于创建数据立方体,以便在多个粒度级别分析数据。泛化 - 在泛化中,将低级别或“原始”(原始)数据还原为更高级别的概念…… 阅读更多
数据集成是将来自多个不同来源的数据组合在一起的阶段。在实施数据集成时,它应该处理数据冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种数据预处理技术,它包括将来自多个异构数据源的数据合并成连贯的数据,以保留和支持信息的综合视角。它将来自各种来源的数据组合到一个连贯的数据存储中,包括数据仓库。这些来源可能包括多个数据库、数据立方体或平面文件等。在数据集成期间,需要考虑多个问题。模式集成和对象匹配可能很复杂。对于…… 阅读更多
15K+ 次查看
数据清洗是指通过填充缺失值、平滑噪声数据、分析和去除异常值以及去除数据中的不一致性来清理数据。有时,多个详细级别的数据可能与所需的数据不同,例如,它可能需要 20-30、30-40、40-50 的年龄范围,而导入的数据包含出生日期。可以通过将数据拆分为适当的类型来清理数据。数据清洗的类型存在各种类型的数据清洗,如下所示:缺失值 - 缺失值用适当的值填充。有以下方法…… 阅读更多
5K+ 次查看
数据挖掘是通过共享存储在存储库中的海量数据,使用包括统计和数学技术在内的模式识别技术,查找有用的新相关性、模式和趋势的过程。它是对事实数据集的分析,以发现意想不到的关系,并以对数据库所有者既有逻辑又有帮助的新颖方式总结记录。它是选择、探索和建模大量信息的过程,以查找最初未知的规律或关系,从而为数据库所有者获得清晰且有益的结果。它并不局限于…… 阅读更多
8K+ 次查看
数据挖掘系统与数据库或数据仓库系统集成在一起,以便它能够在有效的环境中执行其任务。数据挖掘系统在一个需要它与其他数据系统(如数据库系统)通信的环境中运行。存在可以集成这些系统的可能的集成方案,如下所示:无耦合 - 无耦合定义数据挖掘系统不使用数据库或数据仓库系统的任何功能。它可以从特定来源(包括文件系统)检索数据,使用某些数据…… 阅读更多
63K+ 次查看
数据挖掘功能用于表示必须在数据挖掘任务中发现的模式类型。一般来说,数据挖掘任务可以分为两类,包括描述性和预测性。描述性挖掘任务定义数据库中数据类的共同特征,而预测性挖掘任务则根据当前信息进行推理以进行预测。存在各种数据挖掘功能,如下所示:数据特征描述 - 这是对数据对象类的一般特征的总结。用户指定类的数据通常由…… 阅读更多
数据挖掘是指从海量数据中提取或挖掘知识。数据挖掘通常用于保存和处理大量数据的地方。例如,银行系统使用数据挖掘来保存大量数据,这些数据会不断被处理。在数据挖掘中,根据多个类别将隐藏的数据模式视为有用的数据。这些数据被收集在一个区域,包括用于分析的数据仓库,并执行数据挖掘算法。这些数据有助于做出有效的决策,从而降低价值并增加收入。存在各种…… 阅读更多
9K+ 次查看
在电信和电子工程中,“比特率”和“波特率”是数据通信中常用的两个术语。这两个术语都表示计算机网络中数据传输的速度。比特率和波特率的基本区别在于:比特率定义为单位时间内通过网络传输的比特数(二进制的0和1),而波特率定义为单位时间内通过网络传输的信号单元数。因此,比特率和波特率是相关的术语,它们之间的关系……阅读更多