我司大数据平台从2016年开始建设,陆续接入一些数据,包括各类结构化业务系统数据,其中还有一些半结构化的日志数据以及非结构化的埋点数据,数据模型的建设最终都需要将数据结构化,非结构化的数据部分已经通过我司的一些平台处理过了,针对非结构化的数据这一块的处理和数据拉通,一直没有什么好的思路去做。问题1:行业内有没有什么好的方法或者实际落地的经验分享;问题2:数据质量方面的把控,有没有可以分享的经验;问题3:关于数据模型的建设,往往技术人员和业务人员的偏重点可能不一样,大家如何达成一个平衡点,提高效率。
1.非结构化的数据一般通过流式处理,日志写入kafka,通过spark或者flink进行指标清洗,最终数据入库。
2 数据质量这是个玄学,我的理解两个角度一个是技术一个是业务,技术类的系统能处理,比如数据的一致性,唯一性,完整性等,但是业务上的 牵扯到数据治理。这个是个浩大的工程。数据业务上的规范有时候不是技术的强弱能解决的
3.有经验的老司机一般不会存在这个困扰,如果有这个困扰先按照自己的舒服的模式来,逻辑模型可以技术点,但是做着做着就会慢慢变成以业务为主了,这是个过程。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30