银行业在票据影像文件存储选型上的探讨?

银行在业务运营中会产生大量纸制凭证以及视频图像,使得非结构化数据的发展速度迅猛增长。但是在金融信息化建设之路上,金融行业一直专注于业务管理信息系统的发展。相比之下,与金融业务控制、内部管理关系十分密切的票据影像类的基础数据管理与保存建设,还存在很大的改善空间...显示全部

银行在业务运营中会产生大量纸制凭证以及视频图像,使得非结构化数据的发展速度迅猛增长。但是在金融信息化建设之路上,金融行业一直专注于业务管理信息系统的发展。相比之下,与金融业务控制、内部管理关系十分密切的票据影像类的基础数据管理与保存建设,还存在很大的改善空间。
由此,银行建设集档案录入、图像处理、智能识别、数据核对、统计分析、海量存储、精确查询于一体的票据影像集中管理平台已成为其必由之路。
那么目前文件存储中常用的产品有HDFS、GPFS以及CephFS等,针对以上几种产品的选型,大家有什么好的经验及建议呢?欢迎一起畅谈!

收起
参与22

查看其它 5 个回答byethen的回答

byethenbyethen  系统工程师 , CMBC

昨日夜里无事,又针对这一问题思考了下,个人愚见,欢迎各位拍砖!
票据影像是交易中的重要凭证,针对票据影像的业务特点,对大规模的票据影像数据存储系统,我总结了下,总共大致是有这么四个需求:
1、既要保证海量小文件的高速录入、查询,又可以提供大文件的性能保证;
2、票据影像的数据量未来会有一个非常快速的增长,必须保证未来的扩容便捷性;
3、新建设的票据影像管理系统要和已有的票据影像IT设备之间保持兼容;
4、此外,其必须满足监管部门对系统可靠性及数据保护的监管要求。

而截止到目前为止,银行信息部门仍然大量NAS作为主要的非结构化数据的存储和共享,NAS具备一定的稳定性,安全性,同样也支持多数据中心容灾,如果没有性能和容量瓶颈,仍然是优秀的文件存储解决方案。但与此同时,中大型银行也正在经历着互联网公司曾经遭遇的NAS无法解决的存储难题,主要体现在如下方面:NAS存储采用古老的文件系统技术,单个文件系统容量受限,超过容量后对IT运维将带来巨大挑战;NAS存储的目录文件系统采用B+树进行文件索引,当文件数量过多时,会严重影响访问性能;NAS设备过维保后,由于非结构化数据规模较大,在更换时需要花费大量时间,且数据迁移存在风险等等。

在这个应用场景下,个人认为,一款优秀的文件存储,需要具备几个特点:
一是对海量小文件读写良好性能的支持以保证性能,二是支持跨多数据中心容灾以保证安全性。基于这两点,HDFS这种适合大文件读写场景的文件系统可能不太符合需求,而作为一款并行文件系统,GPFS跨中心的数据同步Failure Group机制,同时对于小文件快速读取的支持,则可以很好的满足这两点需求。
出于监管政策要求,数据访问频度可能出现分层,对于短期不再频繁访问,但为了监管要求,日后需要查询的冷数据,可以考虑存放到IBM的带库文件系统等低成本的存储介质上。
随着银行数据中心建设的不断云化,为了实现公有云和私有云的数据通道,以及响应国家自主可控的要求,银行逐渐开始试用国产和开源的文件存储产品,目前大量票据开始迁往巨杉影像数据库,逐渐替换淘汰的NAS产品。

银行 · 2019-04-26
浏览4193

回答者

byethen
系统工程师CMBC
擅长领域: 存储灾备服务器

byethen 最近回答过的问题

回答状态

  • 发布时间:2019-04-26
  • 关注会员:7 人
  • 回答浏览:4193
  • X社区推广