jeko
作者jeko·2022-11-12 19:24
系统工程师·某省农信

省农信、农商行非结构化数据存储技术路线如何选择及容灾方案设计

字数 8820阅读 1247评论 0赞 1

导读:

随着农信互联网业务的开展和监管要求的不断提高,线上线下业务不断拓展产生的影像、音频、视频等非结构化数据急速增加,银行正面临现有的文件存储设备不能适应业务增长、系统管理复杂、扩展能力差,灾备系统不完善等方面的问题。因此亟需建设安全可靠的非结构化数据的存储平台,来满足银行的非结构化数据存储、读取和管理需求。

现在非结构化数据存储包括以对象存储为代表的分布式存储和NAS存储两种,对象存储无论是副本方式还是纠删码方式,都是需要先向对象存储建立通讯连接,然后把文件上传或下载下来,才能对文件进行读写操作,这样会影响交易的响应时间。对象存储适合一写多读,几乎不会对展示的内容进行修改的场景,所以更适合互联网业务的场景等。

NAS存储用于文件的共享和存储,更擅长文件的随机读写,NAS存储能及时的响应业务系统的联机要求,适用于对响应时间有较高要求的场景下,如实时交易需要联机共享文件等,因银行业务系统对响应时间要求较高,综合对比以上两个非结构化数据存储方案,NAS存储方案可以以更低的延迟,更快的响应时间直接对文件进行读写操作,满足业务系统的要求,采用NAS存储设备构建同城双活架构,防止出现设备故璋导致业务系统不可用,可保障7*24小时的业务连续性,实现了重要业务系统对于文件存储的高可用需求。

本期线上同行交流twt社区特别邀请来自华为数据存储解决方案中心的专家和省农信的专家一同参与线上的交流探讨,本期重点从:银行数据中心非结构化数据存储主流的技术路线如何选择、NAS双活主流产品解决方案如何选择、NAS双活常见故障如何诊断及处理?等三个方面14个交流主题进行总结,希望给农信和农商同行在非结构化数据存储技术路线的选择及容灾方案设计的过程带来帮助。

一、银行数据中心非结构化数据存储主流的技术路线如何选择?

对于企业级NAS的选择,可以测评这个领域的主要厂商的产品,从产品安全性、性能、容灾、软件功能等维度进行poc测试,结合业务实际需求进行综合比较。

1、对于大量小文件的共享存储场景,NAS和对象存储那种技术路线更适合?

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
当然是企业NAS,对象是慢速,大容量,大文件的目标存储,而金融行业的主流场景是高速访问的小文件诉求,与对象的自身特点并不匹配;对象的当前适配场景是备份资源池和大数据存算分离;个别头部银行采用对象作为小文件的生产存储,已经出现了性能瓶颈等明显问题,而不得不独立开发应用系统的缓存加速层,来解决对小文件的高速访问需求。

嘉宾:jeko 系统工程师 , 某省农信
大量小文件往往是数据分析应用平台产生,对读写性能和稳定性都要求较高,NAS更适合。

2、银行数据中心非结构化数据存储主流的技术路线有哪些?

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
目前核心还是NAS,当然,确实在备份资源池和大数据存算分离场景,有部分客户已经引入对象。

嘉宾:zhanxuechao 咨询专家 , 数字研究院
可以考虑数据湖建设,对结构化数据、非结构化数据等进行统一的存储、治理和使用。如果不使用湖统一存储的话,建议对非结构化数据进行分类分级,热点数据可以存储在NAS上,归档数据存储在磁带库中。

嘉宾:jeko 系统工程师 , 某省农信
在线非结构访问主要是NAS存储在银行与证券客户,逐渐切换到全闪存NAS;冷数据逐渐向对象存储迁移;大数据用HDFS。

3、对于非结构化数据存储访问的一致性控制方面,主流技术路线中哪种技术更好?

嘉宾:jeko 系统工程师 , 某省农信
传统集中式存储非结构化访问全部以强一致性为主,他们主要用在金融机构的生产系统,数据一致性是主要考量的要点;
以前的分布式存储采用两副本或三副本技术,以前的Ceph甚至互联网的云存储常采用弱一致性或最终一致性机制,随着EC技术的使用与性能调优,分布式存储逐渐也转变为强一致性算法,包括Ceph新版本等。

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
企业NAS作为在银行长期使用的成熟方案,核心就是确保数据访问的强一致性;而对象存储源于云,源于互联网,即使宣传多活,但是实际上是最终一致性的多活,本质是异步复制;请客户务必跟厂商确认清楚对象是否支持强一致性多活。

4、在非结构化数据场景下如何选择NAS存储类型,重点关注哪些存储能力和技术指标?

在非结构化数据场景下如何选择NAS存储类型,重点关注哪些存储能力和技术指标?

嘉宾:jeko 系统工程师 , 某省农信
企业级 NAS存储有集中式与分布式两种形态,其中分布式NAS主要用在视频与图片存储、备份归档等场景,一般容量大超过PB级别,要求横向扩展能力强,带宽能力高,但对NAS功能特性要求少。

集中式NAS主要适用于客户自建数据中心内海量小文件应用,要求IOPS高、性能处理能力强,是目前企业数据中心应用的主要形态,集中式NAS对NAS功能特性要求价高。

在金融机构中通常NAS选择以集中式NAS为主,主要的NAS技术指标:
1) 性能指标:带宽、IOPS或OPS、响应时间;
2) 系统扩展能力:控制器个数、支持硬盘个数、硬盘容量等;
3) NAS指标:系统存储池容量、文件系统规格、文件系统最大容量、支持文件数量、目录宽度与深度、最大文件大小等;
4) 容灾备份能力:双活、远程复制、快照等功能特性,RPO、RTO 分别是多少;
5) 功能特性能力,包括Quota配额管理、DNS解析、GNS全局命名空间、WORM 、日志审计、病毒扫描与防病毒能力、权限管理与跨协议访问能力等等;
6) 管理方便性,NAS基本的管理功能力,还包括性能与流量监控、故障统计分析、容量监控与预测;
7) 国外客户经常更关注功耗、空间占用、节能环保、OPEX等数据,随着中国加强对碳排放的管控趋严,未来也会成为重要的考核项目;

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
NAS本质三件事:
1,网络环境,部署环境所要求的协议能力,比如NFS 3.0/4.04.1;SMB3.0/3.0,以及一些高阶的协议特性;
2,NAS本身的可靠性和性能能力,容灾,3DC、备份、快照、克隆等等特性;除了基本读写的性能还有比较丰富的操作类性能 OPS;
3,生态建设,比如跟Vmware对接的VAAI能力,日志审计的生态、防病毒的生态、防勒索的生态等等。

5、企业级nas厂商如何选择,不限国内外,从稳定性,性能,扩展性,高可用上考量?

企业级nas厂商如何选择,不限国内外,从稳定性,性能,扩展性,高可用上考量。

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
企业级NAS的首要选择标准,只有一条,现网案例,成熟、稳定、可靠的现网案例永远是选型最具价值的参考;其次核心是可靠性,除了现网部署规模之外,要明确在各种故障场景下企业NAS的应对策略,端口、卡、控制器、引擎失效,如果处理?再次是性能,小文件的元数据操作一直是业界难题,客户务必在自己试用的目录结构和业务负载下,获取厂商完整的测试数据,比如批量创建小文件,批量删除小文件,批量查询等操作,以确实性能真实可信,有业务参考价值;然后是特性,国内客户对本地快照、容灾、备份极为关注,本质也是对可靠性的一种追求,要确保厂商在这些能力方面的水平。

嘉宾:奔跑的蜗牛 高级软件开发工程师 , 武汉家事易农业科技有限公司
传统NAS厂商:华为、netapp等
笔者更愿意称呼他们为“存储服务器”厂商,独家系统功能非常完善,无论是企业应用还是个人玩家都可以完美胜任,想要的功能基本上应有尽有,出厂内置的个人娱乐化功能并不如轻NAS厂商那般友好,但是胜在拓展性与可玩性超强,基本上想要的玩法都可以按照自己需求折腾出来,且体验更佳。存储方面技术底蕴扎实深厚,但是系统设计偏向服务器端,对于小白玩家而言,可能略微复杂。

轻NAS厂商:极空间、绿联、海康威视、联想、奥睿科等
考斯更愿意称呼他们为“家庭娱乐存储”厂商,这些厂商系统设计的理念较新,拥有互联网思维,贴合家庭小白玩家的需求,家庭功能如影音播放、下载、外网访问等考虑周到全面,基础功能设计简单好用,也均拥有Docker功能,可以拓展各种玩法,但是关于存储技术与网络领域技术底蕴稍浅,仅适合家庭用户使用,企业级暂未涉及。

嘉宾:lzg21st 存储工程师 , brcb
对于企业级NAS,可以评测这个细分领域的主要领导厂商的产品,从产品安全性、性能、容灾、软件功能等维度进行poc测试,结合业务实际需求进行综合比较。

6、非结构化数据存储的场景下,NAS存储相对于对象存储及其它分布式存储有哪些优势?

在银行业非结构化数据存储的场景下,NAS存储相对于对象存储及其它分布式存储有哪些优势?能为行业带来哪些价值?

嘉宾:jeko 系统工程师 , 某省农信
(1)集中式NAS相比对象存储及其它分布式存储优势在于可靠稳定性,RP0、RTO更短,小IO小文件可做到ms内低访问时延;
(2)协议上NAS相比对象发展更久更成熟,可以满足更多精细化个性化的场景诉求;
(3)在使用上NAS的目录结构更加符合人机交互习惯。对象存储则需要上传下载和更新分三步进行。

嘉宾:koka SA , HW

  1. nas支持posix语义,对传统应用采用NFS/CIFS兼容更好。
  2. 在对接AI开发平台时,更适合python这类文件读取方式
  3. nas数据采用树形结构组织数据,支持原子性做rename操作,便捷且性能高。对象存储批量做object的rename操作,会带来大量的元数据操作。
  4. 对象存储桶+偏移的方式,数据组织方式比树型结构简单,所以海量数据一次写入,多次读取下,性能更高

二、NAS双活主流产品解决方案如何选择?

1、NAS双活各主流产品解决方案的对比,各自有哪些优缺点?

嘉宾:jeko 系统工程师 , 某省农信
这里主要对比一下华为和NetApp的NAS双活特性
华为Hyper Metro双活:
NAS支持方式-存储原生支持NAS功能
技术架构-原生NAS HyperMetro双活技术,Active-Active双活,两台存储可针对同一文件系统提供访问服务
组网拓扑-组网简单,二层网路或大二层网络互通即可
存储故障倒换-主站点故障,其NAS IP自动漂移到对端存储,NAS会话保持连接,业务无感知

NetApp MetroCluster双活:
NAS支持方式-存储原生支持NAS功能
技术架构-NAS存储多节点拉远技术实现,本质是一套NAS集群系统,对存储内部交互网络要求较高
组网拓扑-组网复杂,要求高,涉及存储多节点拉远,需要内部100G IB交换机互联、内部复制网络,其他网络要求二层或大二层网络互通
存储故障倒换-主站点故障,需要NAS业务倒换

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
NAS双活目前业界只有两家厂商具备,一家是行业老大Netapp,一家是华为的Dorado;Netapp做的最早,历史继承性强,但是包袱和负担比较大,所以Netapp的NAS双活是AP模式,支持灾难后的自动切换能力,但是文件系统只能在一侧读写,并不是真的两侧可以读写,算不上理论上的‘双活’;华为利用后发优势,实现了双活两侧针对同一文件系统,同一文件的同时读写能力。

2、生产nas已经做了同城双活,是否有必要做异地灾备和备份?

生产nas已经做了同城双活,是否有必要做异地灾备和备份。生产的NAS是否有必要开快照?

嘉宾:jeko 系统工程师 , 某省农信
1、NAS是否建议异地灾备取决于对应的业务系统的业务连续性要求,也就是是政策导向,在技术上已完全可以实现,AB双活,BC异步复制即可。
2.快照等备份。对于重要性高的业务系统数据,可以考虑开启快照功能,保留特定周期的数据,以防业务回溯。

嘉宾:lzg21st 存储工程师 , brcb
这个要看业务需求,如果异地有应用级灾备或者文件有两地三中心的高可用建设需求,那么可以构建基于NAS的3DC架构,可以在当前同城双活NAS上在线完成3DC的搭建,异地可采用异步复制。生产端的NAS建议开启快照,针对不同业务系统,可以灵活设置快照频率、快照预留空间和保留策略等,方便快速恢复。

嘉宾:奔跑的蜗牛 高级软件开发工程师 , 武汉家事易农业科技有限公司
首先明确一下概念,比较有助于统一思路,探讨此话题:
只要达到一份以上的数据保存副本,就可以理解为备份。
而“同城灾备”必定有多于1份的数据副本,因此“备份”已然是“灾备”中的一个部分了。指标是RTO RPO。
那么,如果同城之间的灾备是基于实时同步的方式(隐约记得SNIA称为:Synchronous Replication),本质上就具备了一套备份系统,而且备份的数据副本是实时更新的。为什么还要再次规划“备份系统”呢

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
双活本质是容灾,异地容灾主要看生产同城是否有灾难风险,是否符合行业合规要求,等保标准针对不同等级业务,有明确的规定。
备份和容灾的定义不同,备份是防止人为的错误,或者其他失误而需要的时间上的回退,所以,容灾只解决灾难问题,备份解决时间点回退,都需要。

嘉宾:夜月瞳 项目经理 ,
同城双活更多解决的是可用性的问题,无法规避数据逻辑故障。异地灾备和备份更多可以通过多份离线数据备份的方式实现多个历史版本数据的保存,有逻辑故障(如误删除、病毒感染等)发生时可以从历史版本中进行恢复。快照也可以作为一种历史版本数据留存的方式,但是快照并不能代替备份。在双活的基础上优先建议考虑备份,其次根据需要选择异地灾备。

3、企业在构建基于NAS存储的两地三中心架构时,需要重点关注哪些方面?

嘉宾:lzg21st 存储工程师 , brcb
如果说FC网络是传统集中式SAN存储的核心,那么IP网络无疑是NAS存储的关键。因此,在配置NAS存储时,特别是对于跨数据中心的NAS双活架构的搭建,提前规划好各张不同功能的网络就显得尤为重要了。
比如,对于同城NAS双活架构的网络设计, 整个网络架构共涉及4个网络平面,分别是业务网络平面、复制网络平面、仲裁网络平面以及管理网络平面。 每个网络平面只承载各自功能模块的流量。这样的网络架构设计,既保证了各个网络的安全性,也提升了每个网络平面的吞吐性能。
此外,在软件层面,通过结合业务使用场景,充分利用NAS存储提供的租户特性。不但可以实现业务系统间的安全隔离,同时也实现了基于单个业务系统的细粒度灾备切换能力。

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
NAS的两地三中心和SAN的两地三中心构建策略类似,差异核心在于同城带宽的考虑策略以及三层还是二层网络选择;
1,首先是数据中心的分布问题,能否满足两地三中心的分布要求,同城数据中心控制在100公里以内;
2,要测算两侧写入数据的带宽,NAS由于需要在两中心同步大量数据,因此要求同城带宽是单侧写入带宽的2~3倍,这个务必计算清楚;
3,二层网络和三层网络的双活实现在NAS有明显差异,二层较为简单,同一个IP一侧enable,一侧disable;而三层需要引入BGP网络协议支持IP倒换后的路由更新;涉及网络团队的合作问题。

4、非结构化数据存储NAS路线上在灾备及备份上的设计规划会考量点有哪些?

非结构化数据存储NAS路线上在灾备及备份上的设计规划会考量点有哪些?

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
企业NAS的平台化规划确实有很多需要考虑的问题,首先是完整的业务需求的考虑,涉及规模、接口、协议、性能、可扩展性的整体选型考虑,其次是组网的考虑,一方面是计算侧是否预留了独立的网络接口,另一方面是NAS网络的可达性和隔离性,要考虑对应区域的网络隔离诉求;再次要考虑容灾的组网要求,容灾网络的带宽能力建设,与前端接口的业务压力匹配问题;最后是备份体系的建设,业界通用实践是异步复制+两侧预留快照的Vault方案,可以实现小文件的高速备份。

嘉宾:jeko 系统工程师 , 某省农信
NAS路线的容灾主要考量的是性能、RP0RTO能力、故障切换处理;备份主要考虑和主流备份软件的对接兼容性、效率。

三、NAS双活常见故障如何诊断及处理?

NAS双活的故障类型,分为存储故障(端口、控制器、引擎、POOL等)、双活复制链路故障、仲裁服务器故障、仲裁网络故障等。

1、使用NAS替换GPFS,在多节点并发方面性能是否要弱一些?

使用NAS替换GPFS,在多节点并发方面性能是否要弱一些?

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
具体案例具体分析,企业NAS经过多年架构性优化,自身也具备分布式文件系统给能力,也是用多个控制共同承担某一个文件系统的业务压力,同时前后一体的部署模式也无需GPFS两级火箭架构的时延消耗,从性能层面替换,并没有什么压力;更多需要关注的是GPFS主机侧的应用兼容性问题,是否采用标准接口,是否对接DB2这些场景;部分场景,如DB2,GPFS存在IBM内部特殊优化和接口能力,企业NAS替换务必慎重。

嘉宾:jeko 系统工程师 , 某省农信
使用NAS替换GPFS,性能方面可以根据原GPFS处理的IOPS和带宽等性能数据,对标所选择使用NAS设备的性能数据以判断是否足够。这方面其实不是使用NAS替换GPFS考量最关键的。
能否使用NAS替换GPFS,有一个关键考量是GPFS支持多节点并发写操作,而NAS是只支持一写多读的,在这方面GPFS是具有它的优点的。所以要判断应用的读写模式,如果应用是并发多写模式,那就可能需要应用改造。
使用NAS替换GPFS 是一个多方面的综合考量的结果,包括去除多SAN网络依赖、降低维护复杂度以及国产化趋势等等。

2、在同城双活云数据中心架构下,NAS的选型是集中式还是分布式?

在同城双活云数据中心架构下,NAS的选型是集中式还是分布式?
集中式有很好的双活方案,但是云架构又偏向与分布式,现在分布式存储实现同城nas双活的应用如何呢?

嘉宾:jeko 系统工程师 , 某省农信
推荐集中式NAS,集中式 NAS的 双活高可用能力,可以适合做同城双活架构。而分布式NAS目前主要还只有异步复制能力。

嘉宾:wuzhuang0001 产品规划与架构 , 华为数据存储解决方案中心
核心还是看业务需求及可选产品的稳定性、可靠性、性能等关键能力。私有云的鼻祖Vmware都是分层解耦,全面支持企业SAN和企业NAS,为什么中国的私有云不能用企业存储?
只有企业NAS具备成熟稳定的双活使用案例,而分布式NAS当前无一款支持双活能力;银行的业务,本质是稳定,不是光口头讲一讲支持,而是有明确的在网的规模的可参考案例,才是中小银行选型的根本。

3、同城NAS双活需要怎样的数据中心网络架构?

同城NAS双活需要怎样的数据中心网络架构?为了实现同城NAS双活的服务能力,需要两个数据中心件间的网络怎样构建?

嘉宾:jeko 系统工程师 , 某省农信
为了尽可能实现同城NAS双活架构下的自动切换功能,减少切换过程中主机端的动作,建议两个数据中心之间网络大二层打通。如果是三层网络,NAS切换后,由于两端NAS服务地址不同,主机端需要重新挂载文件系统,大大增加了业务受影响时间。

4、NAS双活常见故障诊断及处理?

nas双活常见故障诊断及处理,nas双活的日常运维注意点

嘉宾:jeko 系统工程师 , 某省农信
NAS双活的故障类型,分为存储故障(端口、控制器、引擎、POOL等)、双活复制链路故障、仲裁服务器故障、仲裁网络故障等。
根据我行对双活NAS高可用的各个场景测试,数据具体如下:
1、NAS设备的电源、网卡、硬盘等冗余部件故障,对存储系统运行无影响。
2、单台NAS设备的控制器故障,单台NAS内部控制器自动切换,主机端IO归零10秒以内。
3、某一台NAS设备宕机,访问该存储的主机IO自动切换到另一台,主机端归零5-10秒。
4、双活复制链路中断,双活NAS中的优先存储的主机IO访问归零7秒左右,非优先存储上主机IO访问归零15秒左右。
5、仲裁服务器故障和仲裁网络故障对主机访问无影响。

嘉宾:奔跑的蜗牛 高级软件开发工程师 , 武汉家事易农业科技有限公司
NAS储存池空间不足问题
若你的储存池空间不足时,可以将不重要的快照删除,如此一来,也可避免发生储存池空间不足的情况;快照区的使用,必须要拥有足够的 NAS储存池空间,才能进行设定、存放,删除快照区前务必再三确认,确认无误后再进行删除,原厂通常会建议快照功能可预留 10%-20% 的空间,此视个人情况取舍。

四、交流达成的共识总结

通过本场交流活动达成了一些交流共识如下,仅供参考:
1) NAS存储方案更适合银行的业务场景,NAS存储可以以更低的延迟,更快的响应时间直接对文件进行读写操作,满足业务系统的要求。
2) 采用NAS存储设备构建同城双活架构,防止出现设备故璋导致业务系统不可用,可保障7*24小时的业务连续性,实现了重要业务系统对于文件存储的高可用需求。
3) NAS支持原生NAS HyperMetro双活技术,Active-Active双活,实现了双活两侧针对同一文件系统,同一文件的同时读写能力。
4) NAS双活情况下,NAS设备的电源、网卡、硬盘等冗余部件故障,对存储系统运行无影响,单台NAS设备的控制器故障,单台NAS内部控制器自动切换,主机端IO归零10秒以内。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广