请问有哪些保障大数据的数据质量的方法?因为如果没有从来源上保障数据质量,后续的利用和挖掘也就步履维艰,能谈一下大体思路吗?
收起实践中,数据质量始终是一个不容易解决的问题,这是因为良好的数据质量必然依赖于一个技术与管理相互结合的方案,要在企业范围内有统一的制度和充分落地的执行。大数据技术被没有提供更好的解决方案,因为开源社区似乎没有将其作为重点的关注方向,甚至在配套的元数据管理等方面还稍逊于传统的商业产品。目前阶段,大数据应用还处于一个离散化的状态,完全现面向应用建设,没有像传统EDW那样形成完整的企业数据模型体系。毕竟大数据的应用模式还在不断探索的阶段,谈论这类强约束的模型还为时过早,个人认为这种状态估计还会持续相当长的一段时间。此外大量外部数据的引入,也对传统的基于封闭体系、强调源头管理的数据质量管理理论提出了挑战,降低噪音提取有价值的信息,会成为大数据应用的一个常态,不再是辅助流程,要在系统设计过程中予以考虑。最后,如何控制数据质量,还要平衡其成本和收益。大家也可以提出些具体的应用场景,我们来进一步分析。