在大数据项目中,如何证明原始数据和大数据环境数据的一致性?

本公司大量使用oracle数据库,使用数据同步工具,将分布在全国各地的原始业务数据,集中同步到一ODS 数据库中,再通过ETL等工具同步到数仓,源端和目标端都为oracle数据库。 在初期,经常有人挑战质疑,两端的数据不一致,因此,我们建立了一套逐级回溯机制,确保目标端的每条记录每个字段...显示全部

本公司大量使用oracle数据库,使用数据同步工具,将分布在全国各地的原始业务数据,集中同步到一ODS 数据库中,再通过ETL等工具同步到数仓,源端和目标端都为oracle数据库。 
在初期,经常有人挑战质疑,两端的数据不一致,因此,我们建立了一套逐级回溯机制,确保目标端的每条记录每个字段,都能追溯到原始业务记录,保证两者一致。数据对比的技术方案为,通过在两端oracle中,对每条记录建立哈希值,然后对比两边的哈希值,确保源和目标两端的记录,全字段值完全一致。

目前我们准备启动大数据方案,将原始数据,通过数据同步工具转成json文件,写入kafka,再传入大数据平台。 但这样一来,两端的数据库环境就不一致。原有的对比方案就无法实施,请问有什么好的技术方案,可以解决这个问题。

收起
参与5

查看其它 1 个回答庆功的回答

庆功庆功联合创始人六卫科技

数据同步工具的问题吧

IT咨询服务 · 2021-07-15
浏览1498

回答者

庆功
联合创始人六卫科技

庆功 最近回答过的问题

回答状态

  • 发布时间:2021-07-15
  • 关注会员:3 人
  • 回答浏览:1498
  • X社区推广