大数据平台的数据拉通和治理?

我司大数据平台从2016年开始建设,陆续接入一些数据,包括各类结构化业务系统数据,其中还有一些半结构化的日志数据以及非结构化的埋点数据,数据模型的建设最终都需要将数据结构化,非结构化的数据部分已经通过我司的一些平台处理过了,针对非结构化的数据这一块的处理和数据拉通,一直没有什么好的思路去做。
问题1:行业内有没有什么好的方法或者实际落地的经验分享;
问题2:数据质量方面的把控,有没有可以分享的经验;
问题3:关于数据模型的建设,往往技术人员和业务人员的偏重点可能不一样,大家如何达成一个平衡点,提高效率。

参与7

2同行回答

biocybiocy系统架构师五八到家信息技术有限公司
问题1 个人觉得每个实施数据中台的企业都有做得不到位的地方,但是其合理性是外界体会不到的,还是要看具体的执行结果。拿我司来说使用了很简单粗暴的方法,把数据的使用权限收紧,导致各方每次接入、建模、二次分析都有较长的沟通和审批流程,看似懒政的一个方案,其实是把各方的...显示全部

问题1 个人觉得每个实施数据中台的企业都有做得不到位的地方,但是其合理性是外界体会不到的,还是要看具体的执行结果。拿我司来说使用了很简单粗暴的方法,把数据的使用权限收紧,导致各方每次接入、建模、二次分析都有较长的沟通和审批流程,看似懒政的一个方案,其实是把各方的争议前置,规避了很多模糊的数据指标定义,避免先上线后扯皮的情况。如果有一天该方案阻碍了业务发展,随时可以优化调整。
问题2 关于数据质量的定义,要看覆盖到哪一层面,层层分解处理、规范到该层级上的负责方。如果是全业务通用且统一的数据模型,就交给基础架构部门(或数据中心部门)出一个组件作为约束即可,各方输出数据必须使用该组件。如果是某一类业务共有的,就让该业务的技术负责人出标准。如果是某个业务独有的,最好不要自己造轮子,遵循企业技术委员会的指导进行实施。
问题3 一定要明确技术是服务于业务的,不满足业务需要的技术就没有价值。从业务到技术的层层传导,是需要转换语言的,比如产品经理、业务架构师都得是这方面的专家,有时候仅仅是提出一个新名词,就能拉平各方的认知。所以重点在于技术侧有没有能与业务陪跑的人、读懂业务的人。

收起
互联网服务 · 2020-06-05
浏览2069
cnprincescnprinces软件架构设计师基金
1.非结构化的数据一般通过流式处理,日志写入kafka,通过spark或者flink进行指标清洗,最终数据入库。2 数据质量这是个玄学,我的理解两个角度一个是技术一个是业务,技术类的系统能处理,比如数据的一致性,唯一性,完整性等,但是业务上的 牵扯到数据治理。这个是个浩大的工程。数据业...显示全部

1.非结构化的数据一般通过流式处理,日志写入kafka,通过spark或者flink进行指标清洗,最终数据入库。

2 数据质量这是个玄学,我的理解两个角度一个是技术一个是业务,技术类的系统能处理,比如数据的一致性,唯一性,完整性等,但是业务上的 牵扯到数据治理。这个是个浩大的工程。数据业务上的规范有时候不是技术的强弱能解决的

3.有经验的老司机一般不会存在这个困扰,如果有这个困扰先按照自己的舒服的模式来,逻辑模型可以技术点,但是做着做着就会慢慢变成以业务为主了,这是个过程。

收起
基金 · 2020-06-04
浏览1724

提问者

hero111shenbo
系统运维工程师光大证券股份有限公司
擅长领域: 大数据数据库深度学习

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-06-03
  • 关注会员:2 人
  • 问题浏览:3227
  • 最近回答:2020-06-05
  • X社区推广