查看其它 1 个回答聂奎甲的回答

聂奎甲聂奎甲  项目经理 , 长春长信华天
etvopower7khms等赞同了此回答

在各个环节控制质量的最开始,我们需要对数据质量管理进行标准定义处理。即对元数据进行梳理,并按照元数据管理理念,对各个环节的数据进行管控。在此只探讨结构化数据,非结构化数据可以结构化之后再以此法继续。
0、元数据管理元数据管理简单来说,就是建立一套标准的指标(度量)、口径(维度)等体系,建立相关的单位、分组等支撑信息。目的是保证各环节的数据一致性和统一性。
1、数据产生阶段的质量管理手段方法:控制输入尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等。必须开放的输入部分,进行必要的校验。互联网行业的log数据质量之高,简直不需要进行此步骤的管理!可以说互联网的log分析直接推动了大数据分析发展的进程。
2、数据存储阶段的质量管理手段方法:数据统一在数据结构设计时,就应该按照标准对相同含义的字段统一命名、格式、精度等,排除数据的歧义。
3、数据加工阶段的质量管理手段方法:数据清洗数据加工阶段的目的非常明确,但数据问题繁多,不同的问题需要使用不同的手段处理
4、数据使用阶段的质量管理手段数据使用阶段还需要质量管理?当然!无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。
5、数据质量的持续监控和完善数据质量管理并不是一个流程做完就结束了,数据质量同样要建立一个环,不断发现问题,弥补问题。在各个环节新发现的各种问题,定期进行分析,确定应对方案,并加以改进。质量乃数据之根本,没有质量,数据便不可信。

 2018-03-13
浏览377

回答者

聂奎甲项目经理, 长春长信华天

回答状态

  • 发布时间:2018-03-13
  • 关注会员:3 人
  • 回答浏览:377
  • 关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
    © 2018  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30