华为存储CLUB
作者华为存储CLUB·2022-03-15 17:35
CLUB专员·华为存储用户俱乐部

在全闪存储全面赋能企业数字化转型趋势下,如何开展核心生产存储选型与块资源池建设?—— 华为存储MVP赋能活动互动环节交流探讨总结(3月5日)

字数 12711阅读 3290评论 0赞 1

近年来,数字化转型得到了国家、各行业和企业的高度重视。金融行业内基本达成了“银行数字化转型,不是转不转,而是如何转”的共识,特别是人民银行和银保监会接连发布《金融科技发展规划2022-2025》和《关于银行业保险业数字化转型的指导意见》两份重磅指导文件, 进一步为银行数字化转型指明了方向和路径。

全闪存储在摩尔定律的加持下,这只“旧时王谢堂前燕”凭借其普惠的价格、兼容的技术、极高的性能和成熟的服务等优势,获得了许多银行的认可和关注,开始“飞入寻常百姓家”。

银行数字化转型趋势对存储管理有什么影响?应该如何应对?如何通过全闪存储助力银行数字化转型?如何借助全闪存发展趋势,对现有存储架构进行优化升级?在核心生产存储选型时,应该重点关注哪些能力?存储管理人员应该具备和培养哪些能力?

本期交流活动重点围绕“核心系统全闪存储选型时应该重点关注哪些能力?如何科学合理设计存储架构?”和“块存储资源池的适用范围、建设原则及难点?”两大议题展开研讨,特别邀请金融行业专家、华为专家与多位银行业同行共同探讨,本文对活动中大家分享的内容进行了梳理,希望能够给大家带来参考借鉴。共分为四个部分:全闪存储应用趋势、全闪存储架构设计、NAS如何实现双活及技术架构,全闪存储运维管理以及本次交流达成的共识。希望通过交流活动理清思绪,帮助更多专家在数字化转型趋势下的全闪存储管理,提供更加清晰的选择决策逻辑和经验参考、从容应对建设挑战。

交流达成的共识总结

1、规划设计上。可以从业务类型特性、数据生命周期和个性适用场景等多维度考虑。具体来说集中式存储适用于系统延时小、性能稳定性要求高、有存储共享需求的业务场景。分布式存储适用于对IO吞吐量的要求高,后续扩容需求巨大,而对性能没有极致要求使用场景。分布式对象存储则适用于海量非结构化数据。

2、选型方法上。重点关注,厂商实力、产品功能、技术生态、服务能力、成功案例和性价比等方面。

3、运营管理上。一是明确发展方向。将全闪存作为存储选型重点方向,持续关注行业发展趋势,提前储备相应技术能力。二是做好顶层设计。根据行业实际情况和业务场景,做好各类存储资源池规划,及发展建设路径。三是制定流程标准。积极制定各类存储资源池的适用范围、硬件配置和容灾架构套餐,利用标准化的流程,提升存储管理效率。四是优化现有架构。对现有存储架构详细梳理,发现瓶颈短板,充分利用全闪存特性,择机优化现有存储架构。五是培育技术能力。持续培育存储管理人员的规划和管理能力

一、全闪存储应用趋势

1、全闪存储有哪些适用场景?应用发展趋势如何?

某城商行用户提问:

在核心存储选型过程中,如何能够适应当前的数字化转型要求?或者数字化转型需要存储具有哪些技能?

用户专家 rechen 回复:

我个人认为,数字化转型的本质是IT跟随业务需求而变化。就我行的实践来看,一是业务的互联网化,以及一些SaaS应用。对于存储来说,我们根据不同业务应用的需求引进了比较多的存储服务。例如面向互联网的业务,我行一般采用对象存储用于存放非结构化的互联网APP和数据。

二是根据各金融机构的实际发展情况,随着业务需求和应用架构变化,逐步转型建设新的存储架构。

例如现在应用一般向容器化和微服务改造方面发展。对于存储管理来说也有一些变化,例如X86的应用越来越多,相关的应用日志如何存放?另一方面也增加了运维的难度,我们现在用了比较多的ES,随着存储类别和数量的增长,这方面需求也比较大。

三是大数据方面。以前所有数据分析基本都在总行统一集中管理。但现在我们为了匹配单位的数字化转型,我们是把能力赋能给分行,随后我们在云计算建设方面开始推动分行数据上云,因此我们也使用了较多的hadoop集群。同时在云上,我们采用了直通盘模式。因此,我们在数字化转型的趋势下,所使用的存储产品种类和数量规模都比较大。

2、全闪存信创存储使用情况如何?

某城商行用户提问:

贵行信创用的虚拟化平台是什么产品,信创用的存储是分布式还是集中式的?

用户专家 rechen 回复:

我行作为第一批金融行业试点单位,较早开始探索信创相关技术和产品。目前在主机下移场景中,较多使用华为的高端和终端集中式存储。虚拟化和分布式是与某互联网厂商合作,基于其在公有云的IAAS能力,利用其cbm服务, CBS块存储以及vpc网络能力实现。CBS是分布式结构,从整个从基础设施角度来看,跟VSAN类似,一个集群12台数据节点和3台管理节点,通过云服务把多个集群管理起来。

3、全闪存储技术发展趋势?

某证券用户提问:

针对SAN、FC网络的国产化替代,华为是否有一些计划?前端的国产网络化协议和生态问题?

华为专家 武装 回复:

目前华为不会投入光纤交换机研发, 而是把未来放在NVMe over RoCE这条主线上。

1、端到端的硬件体系问题,NoF全链能力,基于现在情况,主机ARM可以解决;HBA卡需要外商提供,华为当前受供应影响确实不再销售这张卡,但是,很快,会有新的芯片来解决供应的问题;操作系统有很多国产的linux的版本;网络走NoF,存储已经是信创的了;

2、软件端到端生态问题,目前为止,NOF还需要用户配合,厂商测试OS都很新,所以需要用户将现网的操作系统升级到目前比较新的版本,这个事情对用户来讲比较麻烦。目前就windows还没有实施计划;

3、替换之后可靠性问题,新的芯片,可靠性能力大幅度提升,一些SCSI协议的可靠性能力,链接能力,均衡并发能力,后续都会建立起来;

4,存储网络做大规模调整不现实,新建系统可以考虑,可以试点,从做存储角度上看,保证存储支持传统的FC能力,以及新的NOF适配能力,将来用户不用更换存储,换一张卡的事情。

该证券用户发表观点:

从用户的视角来看,其实我觉得如果是不是信创场景,目前NVMe替代传统的FC还是很困难的,因为我觉得根本没有替换的动力,第一个如果你走 rocket,在网络性能上的提升相比现在的 FC,对于我们用户来说提升几乎是微乎其微。比如说从0.15毫秒提升至0.14毫秒,这0.01毫秒的提升其实对我们对用户来说收益根本不大,反而需要承担更多的稳定性和生态风险。 但是从信创视角来看,虽然监管没有明确要求,我行还是共用FC,后端是用信创存储,但是交换机还是用的FC,如果后续随着国家的产业或者包括替换度逐渐提升的话,有可能一整套的存储端到端的解决方案。因此从信创角度去突破替换的话,我觉得用户还是有一些动力的。

主持人 昼者 回复:

信创确实是近年来行业重点关注的大事件。今年2月份,监管部门一次性发布了今明两年的任务,分别为30%和50%,分类方式与去年大体一致。对于银行机构来说整体压力还是相当大的,特别是近两天俄乌冲突后,一些国外重要IT产品供应商都宣布对俄罗斯制裁,不予提供产品和服务支持。国内很多专家从各层面都对该事件进行了解读和猜想,我个人认为在此事件的推动下,信创推广一定会更加坚定、更加广泛和快速。

刚才有老师提到从技术产品功能和解决方案来说,可能不是当前最好的选择。毕竟自由竞争环境下,市场这只看不见的手会根据你的产品优劣进行动态调整。但我们也要考虑到信创这个问题更多的可能还是政策层面、国家安全层面,也就是说国家看得见的手调节的问题。所以在这个情况我倒觉得咱们在整体信创的选型时,不仅是要考虑产品稳定性和好不好用的问题,同时我们还是要在站在国家大的安全政策发展趋势上面来考虑。

针对信创存储的选型,我个人理解存储这方面相对计算资源、操作系统、数据库等产品来说,我倒觉得压力会更小一些。一是存储跟上层的操作系统,数据库、中间件和应用系统来说,相对比较解耦,在存储层面基本存储厂商就可以把控。

二是存储功能主要是通过软件特性实现。三是从当前信创存储生态维度来说,相对操作系统、数据库、中间件这几个维度的厂商来看,最起码我觉得存储这个维度,根据我们自己用的情况来看,华为存储从功能特性、保护性能和服务生态等方面是丝毫不逊于、甚至领先于传统国外厂商。

四是从存储信创芯片来看,华为拥有自己的RAM芯片,也一直在推动基于RAM的信创存储,取得了不少成效。一方面是华为作为拥有RAM芯片和存储等多个关键产品和组建设计生产能力的厂商,在自身生态内的融合度和更迭速度一定具有先进性。另一方是RAM芯片的单核性能略低、多核并发能力和尺寸偏大等方面,其用于存储产品场景,不仅扩大了其芯片优势,还弥补了其不足。现阶段来看,可能RAM更适用于存储控制器芯片。从我行和同业的使用和测试情况来看,效果都不错。

二、全闪存储架构设计

1、容灾方案如何设计?

某银行用户 提问:

我们的架构为数据库上层通过ASM技术使用两台独立的存储。跑批时会对数据库做六份快照进行数据抽取,如何评估这些快照是与主数据库放一台存储,抑或通过同步技术放不同存储上以分担压力?两种方式各有何种冗余方案?

互动答疑专家 刘振国 回复:

我行主要通过业务层逻辑来解决这个问题。存储快照的设计策略需要考虑其对业务的压力,实现一个均衡,个人认为可以从管理和运维的角度来考虑去做这种干预。

华为专家 武装 回复:

在很多城商农信体系下,城商行很多的用的TATA集团核心生产系统,与EMC配合做的很好,通过生产卷克隆出来,从克隆卷上做清账对账的业务。从存储视角看,完全支持这个体系,需要计算下基于原卷、快照、克隆整体的性能抽取压力是多少,目前看全闪存阵列支撑几十万IOPS都不是太大问题。而且,华为OceanStor Dorado在研发阶段就有明确要求,快照性能与原卷性能互不影响,每组LUN创建16组以上快照,分别对原卷和快照进行压力测试,并确保对对方的影响小于5%。

如果是多套存储需要上层把一个完整副本放在其他存储上去,存储阵列本身无法保证跨两套存储数据一致性,除非是双活、同步复制等容灾方式,从存储视角上来讲,希望客户建立在一套存储中,可以多控,可以分池,可以设定QoS。

主持人 昼者 回复:

我比较同意两位专家上述的看法。我行所使用的核心系统就将华为DORADO的快照与业务流程相结合,实现7*24小时模式。目前生产库总数据容量约9Tb,每日批量前后均做一份快照,分别用于参考库(业务只读库)与ODS抽数库,ODS每日抽取量大约600G。从投产至今两年多的运行情况来看,对业务几乎没有影响,同时存储性能虽然处于全天峰值,但与瓶颈相差甚远。因此,建议一是在存储规划时,尽量将业务主库与快照复制盘尽量隔离分布,降低相互干扰。二是从业务逻辑也应用架构层面综合考虑数据高可用性。三是灵活考虑存储3DC容灾方案,如在主中心部署两台存储实现双活,远端(同城或异地)实现远程复制。

2、存储快照可以跨存储运行吗?

某城商行用户 提问:

如果放主存储上,如果这台存储故障了,那么快照是可以在其他存储上继续运行嘛?

华为专家 武装 回复:

不可以。存储的数据保障方式无非是两种,一种是横向的,靠容灾,一种是纵向的,靠备份;两套存储如果没有任何关系,是无法保证数据一致性的;单套存储失效,可以考虑做双活或者主机镜像能力,或者备份,光靠另一套无关存储的快照无法拉起。

3、容灾方案采用哪种技术?

某城商行用户 提问:

双中心存储架构下,对数据库数据同步场景来说,是推荐使用应用级的容灾方式,还是基于存储底层的复制技术。

互动答疑专家 刘振国 回复:

从同业经验来看,实际上在做同城容灾时,两种技术还是有差异的。例如用Oracle的ADG的方式,使用最大性能模式,与存储双活方面的区别有哪些。

采用存储双活方面,能够做到极致的RPO是0。

如果采用数据库上层这种方式最大性能模式,其实是一种异步的模式,不能做到RPO极致为0的这种情况,需要一些IO的补偿,比如说Oracle也有类似同样的这种方案,比如说采用fasting这种方式,就构建一个fashion。比如在本中心是采用最大性能模式,还是最大保护模式来保证IPO是0,总之是通过数据库层面解决。如果采用最大性能模式,肯定要做一些io丢失的补偿。

华为专家 武装 回复:

存储比数据库最大的优势就是切换快,推荐数据库层面跨层同城做了ADG异步,但是RPO不等于0,存储层走了同步复制,可以将RPO=0同步到日志卷,通过脚本方式替换掉ADG异步传输过去的redo卷,实现数据RPO=0的完整回滚。这套脚本在用户处已经成熟应用,基本上半小时可以切过来。

我们对用户的建议,上层数据库,异步复制,保证快速切换,底层走存储同步复制,配合起来,实现RPO=0的替换,即使回退数据也会是完整的。这个体系目前是最优的。

4、同中心双活存储对性能是否有影响?

某城商行用户 提问:

同中心双活存储,与同中心单台存储相比,性能是否会有比较大的影响?

互动答疑专家 刘振国 回复:

可以从存储双活这个机制来分析,主机的IO存放于缓存之中,存储双活模式会把缓存里面内容同步到双活存储的缓存中。存储级的这种延迟我们可以基本上忽略的,因为缓存这种是纳秒级的延迟,所以这块的一个IO有影响,如果链路质量好的话大概也是在1~2个毫秒。

5、基于存储故障域场景下,san交换机规划方案如何设计?

互动答疑专家 刘振国 回复:

SAN交换机作为整个存储系统的枢纽也最容易出现问题的一个环节,确实是需要好好规划。我觉得有几个点,首先是双fabric。第二点是导听器director的冗余。Director分了很多poor blade端口版,我们在做存储前端口的物理连接的时候,要规避把所有的鸡蛋放在一个篮子里面。我们可以把模块、连线、芯片等各模块均交叉互联提高冗余高可用。

三、全闪存储测试选型

1、三中心的存储容灾架构如何设计?

某城商行用户 提问:

闪存盘使寿命期限如何,是否能持续使用10年,为了安全生产数据中心存储本地高可用如何设计,三中心存储架构如何设计?

华为专家 武装 回复:

1、维保年限常见的就是五年,从实际现网操作看,从实际客户压力的情况来看,SSD寿命远超出一般的维保周期,其次基本上所有厂家都提供在线可视SSD可视寿命视图。单盘寿命以现网实测来看,都是满足长期使用,不止五年;

2、要全面考虑整体的TCO,维保费用不是线性的,越往后越贵,实际使用中如何利用,需要结合系统维保年限,维保的费用去整体考虑的一个事情,从商务角度是否继续使用,这个需要另外规划;

3、存储层面比较常见的组网方式有两种,一种是标准的环形3DC,主中心和同城容灾中心做双活或者同步复制,分别跟异地做异步复制,这种方式下,主中心略显单薄,通常,客户会采用数据库层面在主中心再做一份RPO=0的数据库副本,便于快速拉起;一种方式是双活+同步+异步,主中心双活,确保生产的高可靠,同城数据中心做同步复制,确保同城RPO=0,异地异步复制。

互动答疑专家 刘振国 回复:

我觉得可以从四个维度来看。

一是SSD盘寿命。各厂商SSD出厂前会在实验室进行读写测试(DWPD),一般来说这种测试比我们实际使用环境更为苛刻,因此我们在选型时可以参考这个参数。从我行实践来看,闪盘的寿命应该是比机械盘更好一些,同时还有些其他能力,如抗震,在搬迁中SSD盘是要优于机械盘的。

二是监控功能。我行在采购时,明确提出存储产品必须具备通过管理界面或命令行模式,便捷的查看当前闪盘的磨损程度和寿命的预期值。我们在运维时,可以将其作为一个监控功能,提前预警。

三是厂商服务。有的厂商会在采购时,提供一些个性化的服务,比如说闪盘到寿命之前有一些预更换种的高级服务,通过提前更换损耗较高的SSD盘,降低风险。

四是架构设计。存储实际上它作为咱们it技术者里边最底层,它关于数据存储肯定是安全的最重要的,在核心系统建设方面,单存储已经远远不能够满足我们的需求了,那么我们在设计数据级高可用的时候,可以采用类似Oracle ASM normal或者其他传统技术,比说存储双活,如果担心同城链路质量问题,也有好多企业采用同一数据中心,不同机房的双活方式,这也是一种规避单存储单点故障的方案。我们在规划信息系统的健壮性时,要逐步的往高了去看,比如说单盘的健壮性,包括单存储的健壮性,我们要通过架构级的高层设计去规避这种问题。

主持人 昼者 回复:

我补充下我行SSD盘实际使用情况。我行采用了6台DORADO18000,组成核心和外围系统2组同城双中心3DC架构,一共使用了近500块SSD。在投产后的2年时间,只更换了一块硬盘,整体损耗率还是很低的,相比原存储的机械盘基本每周更换2-3块,差异确实很大。

在存储容灾体系设计方面,有两点需要考虑。一是存储3DC如何设计,是“三中心”各放置一台,还是“两中心”放置三台,这可能与行方的机房地理位置、带宽质量和设计理念都有关系,需要综合考虑。二是多技术组合使用。存储架构只是一个容灾体系中非常重要的基础架构,但没有“万能”的可以应对所有灾难场景的技术,只有跟适合的技术。因此在容灾体系设计时,需要结合灾难场景,综合使用多种容灾技术,以达到业务连续性目标。例如我行在规划“两地三中心”的容灾架构时,由于地处华中地区自然灾害较少,同时同城双中心双线裸光纤互联带宽质量较好,因此我们采用了主机房两存储双活、同城存储远程复制和数据库同构复制、异地数据库异构复制的方案,优先保障单中心存储数据的可用性和恢复时间。

2、POC中重点关注哪些指标?

某保险用户 提问:

核心系统存储一般要同时进行同城灾备(同步复制),关于这方面存储选型时该考虑那些poc测试?

互动答疑专家 刘振国 回复:

个人认为存储的poc主要考虑以下几个方面:

首先是安全性。比如说我们依托于存储双活这种存储级的技术去实现的时候,主要关注两个方面。一是存储本身的高可用性,如控制器、板块等故障的冗余性;二是存储容灾架构的安全性,如复制链路、脑裂仲裁、冗余功能等20多个方面。

其次是性能。可以采用工具测试,如fio等,建议使用模拟实际业务场景进行性能测试。

最后是功能性。我行在数据保护上,一般在业务功能或逻辑上实现,比较少使用快照等存储技术。建议具体问题具体分析,一定要结合业务场景进行功能测试。

华为专家 武装 回复:

我补充几点。一是存储数据复制,在实践中建议关注自身带宽能力,我们在实践中发现很多银行的带宽情况并没有想象中稳定,因此我们在设计存储复制方案时一定要与带宽质量相匹配,最好能让存储厂商提供存储复制的同步与异步的转化功能。

例如,我们在一个银行客户实际场景中发现,实际带宽的标准极限是825兆B的传输速率,而实际客户带宽跑到780、790兆了,就不敢跑同步了,数据复制延迟时间特别大,影响了业务运转。因此我们认为存储容灾最好具备同步转移的能力,如果业务峰值期间由于带宽能力影响了同步复制的周期,导致客户业务主端业务生产的数据访问能力受影响,这时候可以切换为异步复制模式,待带宽恢复正常后再转为同步,大家在实践中一定要小心这种情况。

二是重点测试对实际业务性能的影响,一般来说各厂商都提供了足够丰富的样例,重点测试下IO叠加对阵列的带宽能力影响。另一方面是存储容灾切换的流程,目前还没有一个标准的行业规定,每一家切换的步骤流程其实有点差异,所以一定要把切换流程都要完整测试,让厂商提供一些脚本化能力,以便与上层应用对接做一些系统化的切换演练。

三是一些细节方面,如存储容灾体系建成后,在线扩容能力如何?是否影响业务等方面。

3、如何基于业务需求提出具体POC指标?

某农商行用户 提问:

核心存储选型指标问题: 如何根据业务提出的需求?比如tps指标、交易量、账户数、跑批时间等指标要求,推导测算存储的指标,比如:IOPS、控制器缓存大小、容量大小等。

互动答疑专家 刘振国 回复:

其实我觉得这两条路都可以走。一方面作为甲方客户在与存储厂商交流时,很难就现网业务模型或压力,提出一个明确的一个IOPS的准确需求。我觉得一方面可以结合我们现网存储的性能量分析,大概推导出业务的性能压力情况。 比如说月结时,业务在不同时段典型业务周期的时候,我们可以把现网存储的性能压力情况导出来,进行具体分析,作为性能指标的重要参考。

第二方面一般存储厂商也有性能推算工具,会根据现网存储使用情况,推算出所需控制器、内存、后端板卡、IO链路等重要部件的配置,给甲方拿出最佳建议。对于POC测试来说,我觉得带业务的POC测试是最准确的,通过测试结果同比例的横向评估所估算的性能和配置相对更为科学。

4、数据库存储如何选型?

某证券用户 提问:

核心系统全闪存储选型时的性能指标如何考虑,特别是针对关系型数据库所需求的高IOPS低时延场景如何进行选型?

互动答疑专家 刘振国 回复:

传统存储所使用的机械盘瓶颈往往就在于其IOPS和延迟上,一般来讲,全闪存储的IOPS基本都上百万,延迟一般都在一个毫秒以下,结合我们行新核心上线之后,基于我们所使用的全闪存储,每个月会有月报去观察其在业务高峰的性能情况。

从实际情况来看,响应时间一般都是在一个毫秒以下的,从缓存代写率,也就是脏数据这块一般也是在20以下,很低,比如说后端磁盘最末端IO介质能充分去吸收去消化前端业务带来的IOPS的时候,前端的无论是缓存脏数据的代写率,还是控制器 Cpu的利用率,整体上具有一个协调性。

如果此时我们使用机械盘,我们会观察到基于机械盘的存储往往是磁盘组利用率都达到90%以上,这时候的cwp就是缓存代言率都得超过40,这时候你缓存的脏数也得写下来,就会造成缓存命中率的下降,进一步会影响性能。

总的来说,几家头部全闪存储厂商的产品在本质上性能差距不大,主要在于一些极限情况下的性能差异。例如单Lun的性能,实践中我们核心系统往往是独占物理存储不会和其他的系统共用,在此场景中,单系统单lun的性能就需要一个极致的发挥,就需要在全闪存产品中针对此点优中选优了。

另外如果可以能拿出业务场景的特定io模型(io大小,读写比等)下的IOPS指标,一般厂商有工具可以推出建议的配置。

用户专家 rechen 回复:

其实从行业整体来说,核心系统的重要等级应该是最高的,针对存储选型的性能指标,我们其实是有具体的指标。对于核心系统的数据库所用存储,我们一般要求采用高端全闪存储,至少4个控制器,同时要求小块读写,如4k或8k随机读写的IOPS达到30万,95%的分位是要小于两毫秒。另一方面,可以利用工具进行压测,包括将两台变成一个成熟组等方案的压测,保证核心存储的性能。还可以对一些产品的个性化功能的测试,如对单LUN的打码使得核心数据库遇到一个高峰的时候,性能也能够很平滑。

5、信创存储如何选型

某证券用户 提问:

请专家就信创存储选型经验进行分享

互动答疑专家 刘振国 回复:

目前信创确实是大趋势,在存储领域也有华为、宏杉、浪潮等厂商。作为一线的存储运维人员,我们需要持续关注国家的信创政策要求,包括尤其是对存储的信创名录。从现阶段来看,在信创存储芯片领域,主要分为基于ARM和海光两个大类。一是ARM相对海光X86来说,主频相对低一些,但核数更多。二是信创存储与传统存储的区别在于,存储的操作系统里面,会针对 ARM的CPU有一些特殊的定制化的开发,但是这个比例还是非常小的。三是主要考虑信创存储产品的外围生态兼容性,比如自带的监控系统,API兼容性以及第三方监控系统的兼容性。

总的来说,我觉得兼容性整体来看还是没有问题的。因此,我觉得一方面是密切关注政策,另一方面是技术上,重点关注功能指标和与现网的兼容性。

四、全闪存储运维管理

1、如何开展异构存储数据迁移?

某城商行用户 提问:业务从EMC vmax切换到Dorado的话,EMC的powerpath支持Dorado产品吗?如果更换华为的存储管理软件,是否需要停机迁移数?在存储替换过程中,一般是通过主机层或数据库来做数据迁移,还是通过存储层面完成迁移?需要停业多久?风险如何?

华为专家 郭洋 回复:

数据迁移首先得确认您当前系统的版本,现在linux主流的内核版本我们都支持在线迁移,具体的做法就是,在linux上安装我们的多路径版本,通过多路径伪装,新的业务写入dorado,后台通过异构慢慢迁移后台数据;但是如果您是AIX 和 windows,我们就得先停下机处理,停机基本在半小时,再加上业务启停一般总体在2个小时的样子。整个启动数据迁移后,按照您的数据量决定时间。华为有专业的数据迁移团队。专门搞迁移。

2、NAS存储如何迁移?

某城商行用户 提问:

核心系统全闪存储在选型时的应具备SAN和NAS一体服务的能力,针对核心系统与外围系统交互使用双活NAS的场景,由旧NAS至新双活NAS的替换过程,是否有成熟的方法和工具来保障数据的安全迁移与回退?(如现有NAS策略的收集/梳理、配置在新nas的导入工具等)

互动答疑专家 刘振国 回复:

这个问题,我去年进行过分享。我建议对于核心系统包括重要业务系统,针对不同数据结构的业务系统还是建议分离。例如核心系统、手机银行等重要类系统,都规划独占自主存储或分区,目前我们的生产存储规划规范是把SAN和NAS做分离。

一方面是NAS存储对延时要求其实并不高,它的数据块往往也很大,FC SAN这种架构往往都是较小block的数据类型,对延时比较敏感,所以我们做就很彻底,在物理层面就进行分离。即便需要整合,也建议做不同的硬盘域,在最底层把NAS和SAN分开。如果使用华为存储,在建池时,操作界面有一个下拉框,提示其用于SAN或NAS,大家应该也都有过实际的经验,实际上华为也都考虑到这一点。

第二方面,目前我行存储规划按照分级分类建设,在存储整合时,应该考虑到存储运营的便利性,节约成本,我行目前对一般类系统会进行存储的整合,毕竟此类业务系统没有同城灾备或者说异地灾备这种诉求,对于重要系统还是建议分开建设,其根本还是基于业务系统分级分类。

针对NAS迁移,我们正在开展这方面工作,但不是从原NAS向新NAS迁移,而是先把原GPS往NAS上迁移。从业务需求出发,如果能够容忍较长的迁移时间,也可以用最朴素的CT迁移方法,这种方法最简单,可视性也最好。如果业务系统相对敏感性,就是说不允许迁移文件在传输中中断,也可以采用这种中间设一个文件路由的方式。有些同业和厂商共同开发了这么一个产品,采用这种设计路由的方式,实现在线业务无感知的迁移。

NAS的高级功能,比如说qtree等。我个人的理解是,如果是某个厂商的特殊的功能,如果往异构产品上迁移,我个人认为还是有壁垒的,还是有一些代码的区别,如果同构上有可能有这种实现。

华为专家 武装 回复:

1,存储行业基本都实现了SAN和NAS一体化的部署,在国内海外银行领域看,一般情况下采取的分离的部署方式。客观讲,不可能不影响,客户视角很难评估清楚NAS的峰值性能,SAN的峰值性能各自是多少,做好控制比较难,真正实现一体化一般是SAN海外建的比较多,中国金融行业来看,都是成系统建了SAN和NAS资源池,以防止重要系统间的互相影响,这是我们看到的现网问题,大行都是拆开做的;

2,迁移涉及到的停机时间问题,主机迁移,速度不是问题,时间也不是问题,主要是迁移完成后,主存系统同步问题,因为迁移过程中文件有修改,数据需要刷新到新存储中去,这个需要重点关注。考虑清楚停机时间,涉及到文件数量,现网大部分开源工具都是需要遍历在迁移过程中所有的拷贝文件,当遍历规模达到亿级的文件,遍历的速度会比较慢,这是一个问题。厂商提供迁移工具,做了很多优化,最底层文件不会做遍历,直接目录级拷贝,所以基本上在亿级文件上,停机时间控制在2h以内;

3、存储行业没有一个统一的标准,相关的配置可以使用工具进行提取,但也需要人工录入一次,对原始的配置信息的读取能力,也需要重新录入到新的系统中去。

3、全闪存储的压缩与去重功能可以使用吗?有何影响与建议?

某城商行用户 提问:

全闪存储会不会启动压缩?若启用压缩 ,对结构化数据存储和虚拟机存储一般达到多少压缩比?

某证券用户 说明观点:

根据我在大型保险和证券行业的从业经验来看,各厂商存储的压缩功能实际效果更好。存储压缩效果根据场景的不同也有些差异,一般虚拟化场景大概是1.6倍到2倍之间,是数据库场景大概是2~3倍之间,按照2.5倍这样来评估也是可以的。但是去重的话一般都不建议,除非用作备份或者是远程容灾的这种场景。

以前有多个头部存储厂商产品因为去重功能出现过一些事故,丢失过数据。所以我建议是压缩可以开,不建议开去重功能。 另外一点就是说从收益的角度来看,大部分场景除非使用vdi或者备份这种去重特别高的场景,正常的大部分场景数据节约率大概在70~90%都是来自于压缩。其实开去重的收益率并不高,有可能只带来20%的这样的一个数据节约的收益率,但是带来的风险可能大幅提升。

某城商行用户 提问:

对于重点业务的数据库场景,在已经使用nvme全闪高端存储的情况下,打开重删压缩后对性能的影响大概有多少。

互动答疑专家 刘振国 回复:

对于存储的高级功能,我个人建议还是慎用,因为它或多或少会对生产的 io延迟有部分影响,包括做压缩之后,CPU如果没有独立压缩硬件处理卡,由控制器要做需要牺牲一些性能,虽然现在控制器的CPU算力非常高的,但我个人还是对其持中立态度,从我个人这个角度来讲,还是不建议。

4、如何进行全闪存储容量规划和管理?

某城商行用户 提问:

在保障业务连续的前提下,如何对资源池进行容量管理,实现资源的最大化共享、最高效的利用、最节约成本?

华为专家 武装回复:

基于多年客户交流上看,客户在业务思考上,有自己完整规划,从厂商角度讲,可以提供存储的资源监控能力。基于单套设备很好管理,资源如何利用很清楚,多套设备情况下,有DME进行管理,将资源做整体化视图展示,这些内容在各个大行都已经商用了,将资源合理的展示出来,并且也具备系统使用情况,端到端的性能监控容量告警等这些功能。如果设备多套使用,可以使用DME进行管理。

互动答疑专家 刘振国 回复:

其实站在甲方视角,大家都有买存储难、用存储容易的同感。我们接到业务部门申请存储时,往往都是1T、10T的需求。

所以我觉得说这个问题可以从两个方面来看待。一是技术角度,从技术维度来制定策略策略,比如存储开压缩,提高存储空间使用率。二是管理角度。我们在做数据生命周期管理的时候,要有这种数据治理的意识,在线、近线、离线数据的管理策略是什么?

并不是说所有的数据都要永久保存,永久在线保存,永久可塑,一下保留10年,因此就需要对各类系统做一个细致的区分,这点也是最难的一件事,因为从需求方的角度来讲,他更注重使用的便利,能够追溯5年前的或者10年前的数据,并且要在一个小时之内调阅出来,这给我们的存储管理工作带来了很大的挑战。 所以这方面我们要守好这个口子,在我们技术人员维护资源池,充分利用资源之外,一定要管好上层的需求,其实这个是最应该值得去考虑的,也应该最有成效的方案。

5、如何开展存储自动化管理?

某股份制商业银行用户 提问:

如何实现存储自动化部署,例如存储投产后,需要新扩容服务器,可否做到自动化分配空间并映射给主机?

华为专家 武装 回复:

支持的。

1、实现多设备运维;

2、存储服务化,可以将操作基本化,模板化,自己可以设定模板,直接可以将LUN划分好,在主机上进行运行,DME集成到自动化云平台上去,主机层面,连接调用DME某一个应用,可以自动化的操作。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广