Processing math: 100%

什么是数据集成？

数据挖掘数据库数据结构

数据集成是从多个不同来源组合数据的过程。在实施数据集成时，应处理数据冗余、不一致、重复等问题。在数据挖掘中，数据集成是一种数据预处理技术，它将来自多个异构数据源的数据合并成一致的数据，以保留和支持对信息的整合视角。

它将来自各种来源的数据组合到一个一致的数据存储中，包括数据仓库。这些来源可能包括多个数据库、数据立方体或平面文件等。在数据集成过程中，需要考虑多个问题。

模式集成和对象匹配可能很复杂。例如，匹配实体标识（在一个数据库中为emp_id，在另一个数据库中为emp_no），可以使用元数据来防止此类问题。
冗余是另一个问题。例如，一个包含年度收入的属性，如果可以从另一个属性或一组属性推导出来，则可能是冗余的。属性或维度名称的不一致也会在出现的数据集中产生冗余。
一些冗余可以通过相关性分析来发现。给定两个属性，这种分析可以根据可用数据计算一个属性对另一个属性的暗示程度。对于数值属性，可以通过计算相关系数（也称为皮尔逊积矩相关系数，以其发明者卡尔·皮尔逊命名）来评估两个属性A和B之间的相关性。这是

$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N\sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}}{N\sigma _{A}\sigma _{B}}$

其中N是元组的数量，a_i和b_i分别是元组i中A和B的值，A^’和B^’分别是A和B的平均值，σ_A和σ_B分别是A和B的标准差，Σ(a_ib_i)是AB叉积的和，即对于每个元组，A的值乘以该元组中B的值。

相关性并不意味着因果关系。也就是说，如果A和B相关，这并不一定意味着A导致B或B导致A。例如，在分析人口统计数据库时，可以发现定义某个地区多个医院和多次汽车盗窃的属性是相关的。但这并不意味着两者之间存在因果关系。两者通常都与第三个属性相关，例如人口。

数据集成中的第三个重要问题是检测和解决数据值冲突。例如，对于同一个现实世界中的实体，来自多个来源的属性值可能不同。这可能是由于表示、缩放或编码方面的差异。

Ginni

更新于：2021年11月19日

4K+ 次浏览

开启你的职业生涯

完成课程获得认证

广告