数据仓库的工具和实用程序是什么?
数据仓库是一种主要用于收集和管理来自各种来源的数据的技术,以便为企业提供有意义的商业洞察。数据仓库专门设计用于支持管理决策。
简单来说,数据仓库是指与组织的操作数据库分开维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过支持可靠的整合历史信息分析平台来提供数据处理。
数据仓库在多维领域对信息进行概括和整合。数据仓库的构建包括数据清洗、数据集成和数据转换,可以认为是数据挖掘的重要预处理步骤。这些工具和实用程序涉及以下功能:
数据提取
**数据清洗** - 数据清洗是指通过填充缺失值、平滑噪声数据、识别和去除异常值以及去除数据中的不一致性来清洗数据。
数据清洗的类型
**缺失值** - 缺失值用适当的值填充。以下是填充值的方法。
**噪声数据** - 噪声是测量变量中的随机误差或方差。以下是处理噪声的平滑技术:
**分箱法** - 这些技术通过其“邻域”(即噪声数据周围的值)来平滑排序数据值。排序的值被分配到多个桶或箱中。因为分箱法会参考邻近的值,所以它们实现了局部平滑。
**回归法** - 数据可以通过将记录拟合到函数(包括回归)来平滑。线性回归涉及找到拟合两个属性(或变量)的“最佳”直线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的延续,其中包含两个以上的属性,并且数据拟合到多维曲面。
**聚类法** - 聚类有助于识别异常值。相似的值被组织成集群,那些落在集群之外的值称为异常值。
**数据转换** - 在数据转换中,数据被转换为或整合为适合挖掘的形式。数据转换可能包括以下内容:
**平滑** - 它可以去除数据中的噪声。此类技术包括分箱法、回归法和聚类法。
**聚合** - 在聚合中,对数据应用汇总或聚合操作。
**泛化** - 在泛化中,通过使用概念层次结构来将低级或“原始”(原始)数据还原为更高级别的概念。
**加载** - 它可以排序、汇总、整合、计算视图、检查完整性以及构建索引和分区。
**刷新** - 它可以将更新从数据源传播到数据仓库。