在大数据项目中,如何证明原始数据和大数据环境数据的一致性?

本公司大量使用oracle数据库,使用数据同步工具,将分布在全国各地的原始业务数据,集中同步到一ODS 数据库中,再通过ETL等工具同步到数仓,源端和目标端都为oracle数据库。 
在初期,经常有人挑战质疑,两端的数据不一致,因此,我们建立了一套逐级回溯机制,确保目标端的每条记录每个字段,都能追溯到原始业务记录,保证两者一致。数据对比的技术方案为,通过在两端oracle中,对每条记录建立哈希值,然后对比两边的哈希值,确保源和目标两端的记录,全字段值完全一致。

目前我们准备启动大数据方案,将原始数据,通过数据同步工具转成json文件,写入kafka,再传入大数据平台。 但这样一来,两端的数据库环境就不一致。原有的对比方案就无法实施,请问有什么好的技术方案,可以解决这个问题。

参与5

2同行回答

庆功庆功联合创始人六卫科技
数据同步工具的问题吧显示全部

数据同步工具的问题吧

收起
IT咨询服务 · 2021-07-15
浏览1485
沈天真沈天真售前支持IPS
把源端的Hash值当做原始数据一个字段,做相同的流程,然后在大数据平台上抽取出来,反向运算,再做对比 ?显示全部

把源端的Hash值当做原始数据一个字段,做相同的流程,然后在大数据平台上抽取出来,反向运算,再做对比 ?

收起
硬件生产 · 2021-07-12
浏览1578

提问者

cyber
数据库管理员shaphar
擅长领域: 大数据系统运维存储

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-07-12
  • 关注会员:3 人
  • 问题浏览:3214
  • 最近回答:2021-07-15
  • X社区推广