如何在数据的分析处理挖掘中保证数据质量,出现数据问题后如何解决?

参与32

2同行回答

sandossandos系统架构师上海中医药大学附属曙光医院
医疗数据不同于其他行业数据,结构比较复杂,标准化程度也很低,生产系统所记录的数据也不一定能够符合数据分析需求。因此,在业务系统中分析数据,保证数据质量的前提一定是有明确的分析目标,前期分析人员应对生产数据有个全面的了解,并根据实际情况适当调整目标。在出现问题时也可...显示全部

医疗数据不同于其他行业数据,结构比较复杂,标准化程度也很低,生产系统所记录的数据也不一定能够符合数据分析需求。因此,在业务系统中分析数据,保证数据质量的前提一定是有明确的分析目标,前期分析人员应对生产数据有个全面的了解,并根据实际情况适当调整目标。在出现问题时也可以采用一些匹配算法来进行样本差异的控制,补全缺失记录。

收起
医药 · 2018-03-13
浏览2623
nkj827nkj827项目经理长春长信华天
在各个环节控制质量的最开始,我们需要对数据质量管理进行标准定义处理。即对元数据进行梳理,并按照元数据管理理念,对各个环节的数据进行管控。在此只探讨结构化数据,非结构化数据可以结构化之后再以此法继续。0、元数据管理元数据管理简单来说,就是建立一套标准的指标(度量)、...显示全部

在各个环节控制质量的最开始,我们需要对数据质量管理进行标准定义处理。即对元数据进行梳理,并按照元数据管理理念,对各个环节的数据进行管控。在此只探讨结构化数据,非结构化数据可以结构化之后再以此法继续。
0、元数据管理元数据管理简单来说,就是建立一套标准的指标(度量)、口径(维度)等体系,建立相关的单位、分组等支撑信息。目的是保证各环节的数据一致性和统一性。
1、数据产生阶段的质量管理手段方法:控制输入尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等。必须开放的输入部分,进行必要的校验。互联网行业的log数据质量之高,简直不需要进行此步骤的管理!可以说互联网的log分析直接推动了大数据分析发展的进程。
2、数据存储阶段的质量管理手段方法:数据统一在数据结构设计时,就应该按照标准对相同含义的字段统一命名、格式、精度等,排除数据的歧义。
3、数据加工阶段的质量管理手段方法:数据清洗数据加工阶段的目的非常明确,但数据问题繁多,不同的问题需要使用不同的手段处理
4、数据使用阶段的质量管理手段数据使用阶段还需要质量管理?当然!无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。
5、数据质量的持续监控和完善数据质量管理并不是一个流程做完就结束了,数据质量同样要建立一个环,不断发现问题,弥补问题。在各个环节新发现的各种问题,定期进行分析,确定应对方案,并加以改进。质量乃数据之根本,没有质量,数据便不可信。

收起
系统集成 · 2018-03-13
浏览2933

提问者

jenniferjqf
需求管理工程师上海市东方医院

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2018-03-13
  • 关注会员:3 人
  • 问题浏览:5697
  • 最近回答:2018-03-13
  • X社区推广