402 次浏览
ETL 代表提取、转换和加载。它是数据驱动型组织用来从多个来源收集数据,然后将其整合在一起以支持发现、报告、分析和决策的过程。数据源在类型、格式、数量和可靠性方面可能存在差异,因此需要对数据进行处理,以便在整合后发挥作用。目标数据存储可以是数据库、数据仓库或数据湖,具体取决于目标和技术执行情况。ETL 的步骤如下:提取 - 在提取过程中,ETL 识别数据并将其从其来源复制…… 阅读更多
239 次浏览
数据挖掘是从存储在存储库中的大量记录中提取有用的新关联、模式和趋势的过程,它使用包括统计和数值技术在内的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据库所有者而言既合乎逻辑又有效的新方法来总结记录。它是选择、探索和建模大量信息以查找最初未知的规律或关系的过程,以便为数据库所有者获得清晰且有益的结果。数据挖掘类似于…… 阅读更多
5K+ 次浏览
关联规则学习是一种无监督学习技术,它测试一个数据元素对另一个数据元素的依赖性,并进行适当的设计,以便更具成本效益。它试图发现数据集变量之间的一些有趣的关系或关联。它依赖于各种规则来发现数据库中变量之间有趣的关系。关联规则学习是机器学习中最重要的途径之一,它被用于市场篮分析、Web 使用挖掘、持续生产等。在市场篮分析中,它是许多大型零售商使用的一种方法…… 阅读更多
173 次浏览
统计学是从数据中学习的科学。它包括从规划记录集和后续数据管理到最终活动(包括从称为数据的数值事实中得出推论和呈现结果)的所有内容。统计学关注的是人们最基本的需求:在创新和不确定性面前,需要更多地了解世界以及它的运作方式。信息是知识的传播。数据本身被称为原始数据,而不是知识。从数据到知识的顺序如下:从数据到信息(数据发展成信息…… 阅读更多
15K+ 次浏览
基于模型的聚类是一种统计数据聚类方法。观测到的(多元)数据被认为是由有限的组件模型组合生成的。每个组件模型都是一个概率分布,通常是参数多元分布。例如,在多元高斯混合模型中,每个组件都是一个多元高斯分布。负责生成特定观测的组件决定观测所属的集群。基于模型的聚类试图提高给定数据与某种数学模型之间的拟合度,并且基于这样的假设:数据是由基本…… 阅读更多
4K+ 次浏览
基于网格的聚类方法使用多分辨率网格数据结构。它将对象区域量化到有限数量的单元格中,这些单元格形成一个网格结构,所有聚类操作都在该结构上实现。该方法的优点是其快速的处理时间,这通常与数据对象的数量无关,而仅取决于量化空间中每个维度中的多个单元格。基于网格的聚类使用多分辨率网格数据结构,并使用密集网格单元格来形成集群。一些有趣的方法是 STING、wave cluster 和 CLIQUE。STING - 统计…… 阅读更多
14K+ 次浏览
无监督学习是指它可以提供一组未标记的数据,需要对其进行分析并在其中查找模式。示例包括降维和聚类。使用未标记、分类或分类的数据组对机器进行训练,并且该算法需要在没有监督的情况下对该数据进行处理。无监督学习的目标是将输入记录重构为新的特征或一组具有相同模式的对象。根据各种衡量标准…… 阅读更多
6K+ 次浏览
划分算法有两种类型:K 均值聚类 - K 均值聚类是最常见的划分算法。K 均值将数据集中的每个数据重新分配到新形成的集群中的一个。使用距离或相似性度量将记录或数据点分配给最近的集群。K 均值聚类中使用的步骤如下:可以选择 K 个初始集群质心 c1、c2、c3……ck。可以将 S 集群中的每个实例 x 分配给其质心最接近 x 的集群。对于每个集群,根据…… 阅读更多
3K+ 次浏览
关系数据库系统支持五种内置聚合函数,例如 count()、sum()、avg()、max() 和 min()。这些聚合函数可以用作多维信息描述性挖掘中的基本度量。有两种描述性统计度量,例如集中趋势度量和数据离散度度量,可以有效地用于高维数据库。集中趋势度量 - 集中趋势度量,例如均值、中位数、众数和中程数。均值 - 算术平均值通过将所有值加在一起并除以值的数量来简单地计算。它使用每个值的数据。设…… 阅读更多
2K+ 次浏览
这是一种用于预处理数据的统计方法,用于过滤掉不相关的属性或对相关属性进行排名。属性相关性分析的度量可用于识别可以从概念描述过程中被授权的不相关属性。将此预处理步骤合并到类特征描述或比较中定义为分析特征描述。数据区分创建区分规则,即目标类和对比类定义的对象的一般特征之间的比较。这是将目标类数据对象的一般特征与对象的一般特征进行比较…… 阅读更多