银行在大数据平台建设中,对于技术路线的选择呈现的是大致类似的方式:主要是以开源技术为主,自主跟踪、掌控、应用、创新或联合业内专业大数据技术公司合作应用创新。
银行的大数据平台包括存储、计算(批量和流式)、展现、挖掘以及权限管理等功能模块,关于每个模块的技术路线的选择,一般遵循如下原则:
• 业务需求驱动:业务需求明确,组件的技术特性可以满足业务要求
• 技术发展成熟:目前已发布的版本比较成熟稳定
• 开源社区发展好:技术组件的开源社区发展比较活跃,技术演进路线清晰
具体技术组件如下:
1) 在海量数据的存储上,选择以HDFS、Hive表、HBase表作为存储结构化和非结构化数据的介质。
2) 在批量处理功能上,选择以MR、Hive SQL、SparkSQL作为批量计算的框架。
3) 在流式处理功能上,选择以Storm、SparkStreaming、Flink作为流式计算的框架。
4) 在资源管理和调度上,选择以Yarn作为应用程序的资源管理和调度的模块。
5) 在权限管理上,选择以Ldap和Ranger作为权限管理和认证的主要凭证。
6) 在数据挖掘分析上,选择以Spark结合Mlib来实现数据的挖掘分析、机器学习。
7) 其他技术选择:
选择Kafka作为海量消息数据的缓冲队列。
选择多维分析引擎Kylin,实现超大规模数据的多维分析能力。