ETL 测试——数据完整性



检查数据完整性用来验证目标系统中的数据在加载后是否符合预期。

可为此执行的常见测试如下:

  • 检查聚合函数 (sum、max、min、count),

  • 对源和目标进行检查和验证,比较未转换或简单转换的列中记录的数量和实际数据。

计数验证

比较源和目标数据表中记录的数量。可通过编写以下查询完成:

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim; 

数据概要验证

包括在源和目标表(事实或维度表)中检查聚合函数,例如计数、求和和求最大值。

列数据概要验证

包括比较不同值的差异值和每种不同值的记录数。

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

重复数据验证

包括验证主键和唯一键(属于一列或多列组合) 根据业务要求应为唯一的。可使用以下查询执行重复数据验证:

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;
广告