集中式存储比分布式存储更稳定,且价格越来越便宜,对于中小城商行而言,数据量和增量远不如大行,集中式存储的容量已能满足数据存储容量的要求,在此情形下,是否还有必要引入分布式存储,如要引入,除了大数据平台外,还适合用在哪些场景?容器云平台如果采用分布式存储对城商行来说运维压力和风险是否能很好控制?
集中式和分布式是目前数据存储的两种架构,各有侧重和适配场景,在您的问题中,聚焦在中小城商行的存储架构设计和建设的思考,下面我基于此给出一些个人的思考和分析,供参考。
IT基础架构视角(企业云)
分布式存储有两种部署方式
[1]软件驱动
软件定义,与服务器硬件充分解耦,不仅可以提供更灵活的硬件选择,快速整合最新硬件技术提升整体系统能力。
[2]存储介绍和技术
SATA SSD、NVME、Intel DCPMM、RDMA、NVMf、10GE/25GE/100GE以太网卡……
[3]云原生存储
分布式存储引擎 +Kubernetes Operator+CSI ( Container Storage Interface )
对于中小银行而言,选择集中式存储更好,理由有三点。1、集中式存储随着国产化的发展,性能越来越高,价格也越来越低,维护相对而言也比较简单。2、双活机房或灾备的建设方面,集中式存储省去了很多中间步骤,相应的维护工具也比较成熟。3、由于中小银行的技术相对而言比较薄弱,因此集中式存储在备份,传输的环节管理比较简单。4、安全性考虑,集中式作为一体化终端,不容易感染病毒。
如果引入分布式存储,窃以为,主要有几点考虑。1、必须和容器云相结合,才能够满足技术和管理的双重要求。2、必须在硬件标准化的基础上,才能发挥最大的作用。3、必须有容量和性能可以水平扩展的需求,否则技术的迭代和扩展会带来新的运维压力。
场景方面,除了IO密集型的场景,比如银行的日终跑批,基本上都适合。
集中式存储和分布式存储并不是一个对立,使用集中式存储的同时也可以采用分布式存储,使用场景根据实际业务需求而决定。
虽然集中式存储的控制器性能已经足够强大,但是受限于当前存储介质和存储技术的缓慢增速,集中式存储的横向性能扩展相对比较繁琐,但其稳定性和可靠性上限特别高,适合金融核心业务的支撑。
分布式存储强势之处在于扩展灵活,增加节点就可以在线动态扩展,相对于集中式存储,分布式在同一价格层级实现的性能与容量的设计比中低端集中式存储要高不少,并发性能可玩性高,因此这也是吸引企业尝试分布式存储的一个重大关键。
当然,集中式存储通常为专业架构加上定制化,稳定性和可靠性以及性能的平衡已经达到极致。分布式存储多是以服务器来搭建,服务器本身的制造标准比存储就低不少,加上还有分布式软件,因而在稳定性和可靠性以及性能三者平衡取舍上不如集中式存储。这也是分布式存储带来的主要运维压力。
至于分布式的场景,现在比较主流的业务场景比如BI经营分析,BD大数据,影像等,也都比较多,是否采用取决于企业对这些业务场景的需求迫切度。不少企业也尝试为虚拟化,容器等配置分布式存储作为创新,在这两处场景分布式存储和中端存储旗鼓相当,甚至分布式存储的性能和成本优势会更加突出一点。
收起第一个问题,评估引入分布式存储的必要性可以从是否引入了新的业务应用场景、IT基础架构的变化 以及分布式存储与新架构场景的契合度这样三个因素来考虑,在容量性能成本均满足的情况下,也只有在新场景和新架构的条件下才有必要去引入分布式存储。
第二个问题,分布式存储非常适用于大数据量的场景,对于一些IO延时不敏感的场景,比如虚拟化场景或者轻量级数据库,契合度也很高,主要的劣势是IO延时及稳定性方面有欠缺。
第三个问题,容器云平台的话采用云原生的分布式存储方案更加契合。
关于双模架构和敏稳类型的讨论就不过多赘述,聊聊适合分布式存储架构的场景:
1、私有云/混合云/容器云,实际上这类基础架构通常需要应对的是业务高速增长带来的快速满足需求,基于分布式架构如果采用标准化硬件设+软件管理的方式,可以大幅缩短项目时间周期
2、影像类/大数据/数据湖/备份,这部分属于容量高速增长且长期保存,是个持续增加的场景,从简单的存放到更偏向数据梳理,充分利用数据的价值以及合规要求,对于数据的生命周期来讲,采用分布式架构及软硬解耦的方案,可以更好的进行数据管理;另外通过多维度数据分层技术,将数据分发到不同性能的存储或公有云,且可以满足任意位置的数据访问,对于非结构化数据有更灵活治理方式
另外,对于目前传统存储应用最多的跑批业务,分布式全闪在网络和SSD进一步升级的情况下,也可以摸到门槛去做替换尝试了;最后在运维层面,产品化的东西终归是要好很多,不过越来越多的金融机构开始考虑设计存储资源云化管理系统,用来解决大量和异构存储的使用、运维管理问题
收起主要根据银行自身的需求和实际的应用规模来选择,对于城商行而言,如果集中存储存储的容量和性能等都能够满足需求,还需要考虑管理和维护等, 毕竟引入分布式存储,新引入的技术栈势必增加管理维护的工作量。
收起对存储的扩展主要还是要根据现有业务和将来可能发生的业务,按描述来看。如果目前集中存储能够满足数据存储的要求,重点:并且在未来几年之后能够满足业务的增长,那么则不是必须要引入分布式存储,毕竟银行的业务首要的是稳定和高io运算,分布式存储更多的应用场景倾向于非结构化的业务,虚拟化,或者影像,文件。即使引入分布式,也应该是侧重在虚拟化业务层,或者是银行的双录存档方面,传统的业务数据库可以保留在集中式存储上。当然。一切的规划还是要看实际银行现有业务,未来扩展需求,资金投入和技术储备。
收起从一些实践经验来看,如果规模不大,优先考虑集中式存储,维护简单,运维成本低。当形成超大规模以后,会促生分布式存储需求,因为其更加灵活和动态,但是会带来很大的技术学习成本,故在短期内不建议实施,呈现一定规模后可考虑。
收起