Information Analyzer也是Information Server的一个组件,它内置了一部分数据质量校验规则,也可以在图形化界面中定制数据质量校验规则。定制的规则自动生成数据质量分析作业,并将数据质量分析报告以图形化形式展现出来。Information Analyzer只是生成数据质量报告,并不会清洗数据。DataStage中的Data Rule Stage则可以调用Information Analyzer的规则,并将数据分类。当然也可以不借用Data Rule Stage,而结合数据质量报告,直接用ETL完成数据质量校验。
ETL阶段进行数据验证,有专门的验证工具也可以自己写DQ脚本,验证逻辑可以是针对数据条数,金额等,具体就要看你最后要分析的数据,数据质量问题可能是ETL数据处理时候的问题也可能是数据源的问题。
收起项目前期就要考虑数据质量的问题,利用数据质量分析工具如Information Analyzer,获取数据质量的情况。项目实施过程中结合前期数据质量分析报告,在ETL前阶段考虑数据质量清洗,并在ETL过程中加入相应的数据质量校验,清洗功能。具体以DataStage来讲,例如利用Data Rules Stage校验数据质量,分流脏数据,对Sequential File Stage或RDBMS stage添加Reject Link等。