本公司大量使用oracle数据库,使用数据同步工具,将分布在全国各地的原始业务数据,集中同步到一ODS 数据库中,再通过ETL等工具同步到数仓,源端和目标端都为oracle数据库。
在初期,经常有人挑战质疑,两端的数据不一致,因此,我们建立了一套逐级回溯机制,确保目标端的每条记录每个字段,都能追溯到原始业务记录,保证两者一致。数据对比的技术方案为,通过在两端oracle中,对每条记录建立哈希值,然后对比两边的哈希值,确保源和目标两端的记录,全字段值完全一致。
目前我们准备启动大数据方案,将原始数据,通过数据同步工具转成json文件,写入kafka,再传入大数据平台。 但这样一来,两端的数据库环境就不一致。原有的对比方案就无法实施,请问有什么好的技术方案,可以解决这个问题。