我们之前对于跨库数据迁移前后一致性比对;比如从mysql迁移到hbase,
1)方法1:每一条记录先生成md5,然后源库源表最大行数加上最后一行md5值;与目标库目标表 最大行数加上最后一行md5值 比对;一样则认为迁移前后数据一致,此种方法的优点的比较快;但是如果存在差异则没法知道到底是迁移的哪一条记录存在差异。
2)方法2:采用spark或flink,利用流式处理;首先第一个算子从源库源表一批数据,第二算子根据第一个算子获取源库原表记录主键key到目标库目标表找是否存在对应主键key值记录;不存在则说明数据丢失,记录到日志,存在则继续下一步全字段比对,这种方法比较慢;但是可以通过调整好每批次的数据量和算子处理的最大线程数来加快处理速度