软件开发实时数据仓库

实时数仓如何进行数据的治理管控?

实时数仓如何进行数据的治理管控,我们知道传统数仓在建设过程中,都会面临这数据质量方面的问题,实时数仓的时效性都是很高的,对于数据质量的管控上,有没有什么最佳实践。显示全部

实时数仓如何进行数据的治理管控,我们知道传统数仓在建设过程中,都会面临这数据质量方面的问题,实时数仓的时效性都是很高的,对于数据质量的管控上,有没有什么最佳实践。

收起
参与5

返回jamiee的回答

jamieejamiee数据库架构师某股份制银行

数据治理大概是数据使用和建设中比较有共性的痛点,传统数仓也少见能很好的解决这个问题,虽然工具建设不少但数据治理的效果并不理想。我们在大数据建设上做了一些尝试,将数据治理的要求内嵌到数据开发的过程中,通过开发工具进行强制执行要求的核验,不满足治理要求的、没有填写必须治理信息的不能提交至测试环境进行测试,通过开发工具自动收集程序中使用依赖的数据、加工的技术口径、加工的结果数据。将工具收集到的数据进行整合处理生成元数据信息,数据血缘关系,并能结合各个数据表的数据生命周期进行数据清理;通过配置数据质量治理规则,定期对加工结果质量进行经核查、整改;建设了灵活封边的元数据数据字典查询和生命周期查询、数据依赖分析工具。这样在一定程度上解决元数据不准确、不完整的问题,解决了数据质量变化无法及时感知的问题,解决了数据依赖关系复杂无法快速分析故障或上游元数据变更影响等问题。这个思路可供大家参考,在实时数仓中数据治理问题是否可以通过定制工具解决?

银行 · 2019-08-31
浏览1479

回答者

jamiee
数据库架构师某股份制银行
擅长领域: 大数据实时数仓数据库

jamiee 最近回答过的问题

回答状态

  • 发布时间:2019-08-31
  • 关注会员:2 人
  • 回答浏览:1479
  • X社区推广