1、遇到最多的就是古老的系统中某些本应该是选择性输入的,却是手工输入,五花八门的数据,例如:省份的名称浙江省、浙、浙江。甚至前后全角空格,各种乱码。2、异常数值3、数据订单的分类状态在系统的架构层次中,这些问题需要在数据仓库里尽早捕获,尽早解决。不要将这些问题遗留到...
显示全部1、遇到最多的就是古老的系统中某些本应该是选择性输入的,却是手工输入,五花八门的数据,例如:省份的名称浙江省、浙、浙江。甚至前后全角空格,各种乱码。
2、异常数值
3、数据订单的分类状态
在系统的架构层次中,这些问题需要在数据仓库里尽早捕获,尽早解决。不要将这些问题遗留到报表展现、统计分析的时候再去处理。
在项目的实施阶段中,也要尽早地提出,尽早的验证问题。因为脏数据的处理是数据仓库类项目中很重要的一部分,前期如果没有正视问题,等问题暴露出来,很可能需要修改etl的设计,影响进度,影响项目质量。
收起