在大数据项目中,如何证明原始数据和大数据环境数据的一致性?

本公司大量使用oracle数据库,使用数据同步工具,将分布在全国各地的原始业务数据,集中同步到一ODS 数据库中,再通过ETL等工具同步到数仓,源端和目标端都为oracle数据库。 在初期,经常有人挑战质疑,两端的数据不一致,因此,我们建立了一套逐级回溯机制,确保目标端的每条记录每个字段...显示全部

本公司大量使用oracle数据库,使用数据同步工具,将分布在全国各地的原始业务数据,集中同步到一ODS 数据库中,再通过ETL等工具同步到数仓,源端和目标端都为oracle数据库。 
在初期,经常有人挑战质疑,两端的数据不一致,因此,我们建立了一套逐级回溯机制,确保目标端的每条记录每个字段,都能追溯到原始业务记录,保证两者一致。数据对比的技术方案为,通过在两端oracle中,对每条记录建立哈希值,然后对比两边的哈希值,确保源和目标两端的记录,全字段值完全一致。

目前我们准备启动大数据方案,将原始数据,通过数据同步工具转成json文件,写入kafka,再传入大数据平台。 但这样一来,两端的数据库环境就不一致。原有的对比方案就无法实施,请问有什么好的技术方案,可以解决这个问题。

收起
参与5

查看其它 1 个回答沈天真的回答

沈天真沈天真售前支持IPS

把源端的Hash值当做原始数据一个字段,做相同的流程,然后在大数据平台上抽取出来,反向运算,再做对比 ?

硬件生产 · 2021-07-12
浏览1587

回答者

沈天真
售前支持IPS
擅长领域: 服务器云计算存储

沈天真 最近回答过的问题

回答状态

  • 发布时间:2021-07-12
  • 关注会员:3 人
  • 回答浏览:1587
  • X社区推广