大数据平台的数据拉通和治理?

我司大数据平台从2016年开始建设,陆续接入一些数据,包括各类结构化业务系统数据,其中还有一些半结构化的日志数据以及非结构化的埋点数据,数据模型的建设最终都需要将数据结构化,非结构化的数据部分已经通过我司的一些平台处理过了,针对非结构化的数据这一块的处理和数据拉通,一...显示全部

我司大数据平台从2016年开始建设,陆续接入一些数据,包括各类结构化业务系统数据,其中还有一些半结构化的日志数据以及非结构化的埋点数据,数据模型的建设最终都需要将数据结构化,非结构化的数据部分已经通过我司的一些平台处理过了,针对非结构化的数据这一块的处理和数据拉通,一直没有什么好的思路去做。
问题1:行业内有没有什么好的方法或者实际落地的经验分享;
问题2:数据质量方面的把控,有没有可以分享的经验;
问题3:关于数据模型的建设,往往技术人员和业务人员的偏重点可能不一样,大家如何达成一个平衡点,提高效率。

收起
参与7

查看其它 1 个回答cnprinces的回答

cnprincescnprinces软件架构设计师基金

1.非结构化的数据一般通过流式处理,日志写入kafka,通过spark或者flink进行指标清洗,最终数据入库。

2 数据质量这是个玄学,我的理解两个角度一个是技术一个是业务,技术类的系统能处理,比如数据的一致性,唯一性,完整性等,但是业务上的 牵扯到数据治理。这个是个浩大的工程。数据业务上的规范有时候不是技术的强弱能解决的

3.有经验的老司机一般不会存在这个困扰,如果有这个困扰先按照自己的舒服的模式来,逻辑模型可以技术点,但是做着做着就会慢慢变成以业务为主了,这是个过程。

基金 · 2020-06-04
浏览1747

回答者

cnprinces
软件架构设计师基金
擅长领域: 大数据云计算中台

cnprinces 最近回答过的问题

回答状态

  • 发布时间:2020-06-04
  • 关注会员:2 人
  • 回答浏览:1747
  • X社区推广