目前传统银行的非结构化数据以影像为主,数据管理模式相对简单,随着互联网对银行业影响的愈发深入,传统银行未来将面对更多种类的非结构数据,在这方面大家有没有什么好的管理方案,在做好管理非结构化数据的同时,怎么样有效的利用这些数据,实现数据价值。
没错,在做好非结构化数据的管理和存储后,接下来就是考虑如何能够充分利用非结构化数据实现数据挖掘价值。个人认为,对于非结构化数据的挖掘利用,着重关注以下两个方面:
1、非结构化数据的清洗:非结构化数据本身就很难被彻底清洗干净,特别是存在海量的多维度性,有很多数据噪声的干扰,这给清洗带来了很大麻烦。而且,清洗过程中,也可能会丢失一些有价值的信息。
2、非结构化数据的融合分析:在非结构化数据中,不同来源的数据从字段上应该具有互补性,这是进行数据融合的入手点。接下来就是充分利用现有相应大数据平台的计算框架如Hadoop的Map-Reduce 框架构建计算集群,对数据键/值对进行分析计算。