昨日夜里无事,又针对这一问题思考了下,个人愚见,欢迎各位拍砖!
票据影像是交易中的重要凭证,针对票据影像的业务特点,对大规模的票据影像数据存储系统,我总结了下,总共大致是有这么四个需求:
1、既要保证海量小文件的高速录入、查询,又可以提供大文件的性能保证;
2、票据影像的数据量未来会有一个非常快速的增长,必须保证未来的扩容便捷性;
3、新建设的票据影像管理系统要和已有的票据影像IT设备之间保持兼容;
4、此外,其必须满足监管部门对系统可靠性及数据保护的监管要求。
而截止到目前为止,银行信息部门仍然大量NAS作为主要的非结构化数据的存储和共享,NAS具备一定的稳定性,安全性,同样也支持多数据中心容灾,如果没有性能和容量瓶颈,仍然是优秀的文件存储解决方案。但与此同时,中大型银行也正在经历着互联网公司曾经遭遇的NAS无法解决的存储难题,主要体现在如下方面:NAS存储采用古老的文件系统技术,单个文件系统容量受限,超过容量后对IT运维将带来巨大挑战;NAS存储的目录文件系统采用B+树进行文件索引,当文件数量过多时,会严重影响访问性能;NAS设备过维保后,由于非结构化数据规模较大,在更换时需要花费大量时间,且数据迁移存在风险等等。
在这个应用场景下,个人认为,一款优秀的文件存储,需要具备几个特点:
一是对海量小文件读写良好性能的支持以保证性能,二是支持跨多数据中心容灾以保证安全性。基于这两点,HDFS这种适合大文件读写场景的文件系统可能不太符合需求,而作为一款并行文件系统,GPFS跨中心的数据同步Failure Group机制,同时对于小文件快速读取的支持,则可以很好的满足这两点需求。
出于监管政策要求,数据访问频度可能出现分层,对于短期不再频繁访问,但为了监管要求,日后需要查询的冷数据,可以考虑存放到IBM的带库文件系统等低成本的存储介质上。
随着银行数据中心建设的不断云化,为了实现公有云和私有云的数据通道,以及响应国家自主可控的要求,银行逐渐开始试用国产和开源的文件存储产品,目前大量票据开始迁往巨杉影像数据库,逐渐替换淘汰的NAS产品。