什么是数据集成?
数据集成是从多个不同来源组合数据的过程。在实施数据集成时,应处理数据冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种数据预处理技术,它将来自多个异构数据源的数据合并成一致的数据,以保留和支持对信息的整合视角。
它将来自各种来源的数据组合到一个一致的数据存储中,包括数据仓库。这些来源可能包括多个数据库、数据立方体或平面文件等。在数据集成过程中,需要考虑多个问题。
模式集成和对象匹配可能很复杂。例如,匹配实体标识(在一个数据库中为emp_id,在另一个数据库中为emp_no),可以使用元数据来防止此类问题。
冗余是另一个问题。例如,一个包含年度收入的属性,如果可以从另一个属性或一组属性推导出来,则可能是冗余的。属性或维度名称的不一致也会在出现的数据集中产生冗余。
一些冗余可以通过相关性分析来发现。给定两个属性,这种分析可以根据可用数据计算一个属性对另一个属性的暗示程度。对于数值属性,可以通过计算相关系数(也称为皮尔逊积矩相关系数,以其发明者卡尔·皮尔逊命名)来评估两个属性A和B之间的相关性。这是
$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N\sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}}{N\sigma _{A}\sigma _{B}}$$
其中N是元组的数量,ai和bi分别是元组i中A和B的值,A’和B’分别是A和B的平均值,σA和σB分别是A和B的标准差,Σ(aibi)是AB叉积的和,即对于每个元组,A的值乘以该元组中B的值。
相关性并不意味着因果关系。也就是说,如果A和B相关,这并不一定意味着A导致B或B导致A。例如,在分析人口统计数据库时,可以发现定义某个地区多个医院和多次汽车盗窃的属性是相关的。但这并不意味着两者之间存在因果关系。两者通常都与第三个属性相关,例如人口。
数据集成中的第三个重要问题是检测和解决数据值冲突。例如,对于同一个现实世界中的实体,来自多个来源的属性值可能不同。这可能是由于表示、缩放或编码方面的差异。