作者华为存储CLUB·2022-03-15 17:35

CLUB专员·华为存储用户俱乐部

在全闪存储全面赋能企业数字化转型趋势下，如何开展核心生产存储选型与块资源池建设？—— 华为存储MVP赋能活动互动环节交流探讨总结（3月5日）

字数 12711阅读 3290评论 0赞 1

近年来，数字化转型得到了国家、各行业和企业的高度重视。金融行业内基本达成了“银行数字化转型，不是转不转，而是如何转”的共识，特别是人民银行和银保监会接连发布《金融科技发展规划2022-2025》和《关于银行业保险业数字化转型的指导意见》两份重磅指导文件，进一步为银行数字化转型指明了方向和路径。

全闪存储在摩尔定律的加持下，这只“旧时王谢堂前燕”凭借其普惠的价格、兼容的技术、极高的性能和成熟的服务等优势，获得了许多银行的认可和关注，开始“飞入寻常百姓家”。

银行数字化转型趋势对存储管理有什么影响？应该如何应对？如何通过全闪存储助力银行数字化转型？如何借助全闪存发展趋势，对现有存储架构进行优化升级？在核心生产存储选型时，应该重点关注哪些能力？存储管理人员应该具备和培养哪些能力？

本期交流活动重点围绕“核心系统全闪存储选型时应该重点关注哪些能力？如何科学合理设计存储架构？”和“块存储资源池的适用范围、建设原则及难点？”两大议题展开研讨，特别邀请金融行业专家、华为专家与多位银行业同行共同探讨，本文对活动中大家分享的内容进行了梳理，希望能够给大家带来参考借鉴。共分为四个部分：全闪存储应用趋势、全闪存储架构设计、NAS如何实现双活及技术架构，全闪存储运维管理以及本次交流达成的共识。希望通过交流活动理清思绪，帮助更多专家在数字化转型趋势下的全闪存储管理，提供更加清晰的选择决策逻辑和经验参考、从容应对建设挑战。

交流达成的共识总结

1、规划设计上。可以从业务类型特性、数据生命周期和个性适用场景等多维度考虑。具体来说集中式存储适用于系统延时小、性能稳定性要求高、有存储共享需求的业务场景。分布式存储适用于对IO吞吐量的要求高，后续扩容需求巨大，而对性能没有极致要求使用场景。分布式对象存储则适用于海量非结构化数据。

2、选型方法上。重点关注，厂商实力、产品功能、技术生态、服务能力、成功案例和性价比等方面。

3、运营管理上。一是明确发展方向。将全闪存作为存储选型重点方向，持续关注行业发展趋势，提前储备相应技术能力。二是做好顶层设计。根据行业实际情况和业务场景，做好各类存储资源池规划，及发展建设路径。三是制定流程标准。积极制定各类存储资源池的适用范围、硬件配置和容灾架构套餐，利用标准化的流程，提升存储管理效率。四是优化现有架构。对现有存储架构详细梳理，发现瓶颈短板，充分利用全闪存特性，择机优化现有存储架构。五是培育技术能力。持续培育存储管理人员的规划和管理能力

一、全闪存储应用趋势

1、全闪存储有哪些适用场景？应用发展趋势如何？

某城商行用户提问：

在核心存储选型过程中，如何能够适应当前的数字化转型要求？或者数字化转型需要存储具有哪些技能？

用户专家 rechen 回复：

我个人认为，数字化转型的本质是IT跟随业务需求而变化。就我行的实践来看，一是业务的互联网化，以及一些SaaS应用。对于存储来说，我们根据不同业务应用的需求引进了比较多的存储服务。例如面向互联网的业务，我行一般采用对象存储用于存放非结构化的互联网APP和数据。

二是根据各金融机构的实际发展情况，随着业务需求和应用架构变化，逐步转型建设新的存储架构。

例如现在应用一般向容器化和微服务改造方面发展。对于存储管理来说也有一些变化，例如X86的应用越来越多，相关的应用日志如何存放？另一方面也增加了运维的难度，我们现在用了比较多的ES，随着存储类别和数量的增长，这方面需求也比较大。

三是大数据方面。以前所有数据分析基本都在总行统一集中管理。但现在我们为了匹配单位的数字化转型，我们是把能力赋能给分行，随后我们在云计算建设方面开始推动分行数据上云，因此我们也使用了较多的hadoop集群。同时在云上，我们采用了直通盘模式。因此，我们在数字化转型的趋势下，所使用的存储产品种类和数量规模都比较大。

2、全闪存信创存储使用情况如何？

某城商行用户提问：

贵行信创用的虚拟化平台是什么产品，信创用的存储是分布式还是集中式的？

用户专家 rechen 回复：

我行作为第一批金融行业试点单位，较早开始探索信创相关技术和产品。目前在主机下移场景中，较多使用华为的高端和终端集中式存储。虚拟化和分布式是与某互联网厂商合作，基于其在公有云的IAAS能力，利用其cbm服务， CBS块存储以及vpc网络能力实现。CBS是分布式结构，从整个从基础设施角度来看，跟VSAN类似，一个集群12台数据节点和3台管理节点，通过云服务把多个集群管理起来。

3、全闪存储技术发展趋势？

某证券用户提问：

针对SAN、FC网络的国产化替代，华为是否有一些计划？前端的国产网络化协议和生态问题？

华为专家武装回复：

目前华为不会投入光纤交换机研发，而是把未来放在NVMe over RoCE这条主线上。

1、端到端的硬件体系问题，NoF全链能力，基于现在情况，主机ARM可以解决；HBA卡需要外商提供，华为当前受供应影响确实不再销售这张卡，但是，很快，会有新的芯片来解决供应的问题；操作系统有很多国产的linux的版本；网络走NoF，存储已经是信创的了;

2、软件端到端生态问题，目前为止，NOF还需要用户配合，厂商测试OS都很新，所以需要用户将现网的操作系统升级到目前比较新的版本，这个事情对用户来讲比较麻烦。目前就windows还没有实施计划;

3、替换之后可靠性问题，新的芯片，可靠性能力大幅度提升，一些SCSI协议的可靠性能力，链接能力，均衡并发能力，后续都会建立起来;

4，存储网络做大规模调整不现实，新建系统可以考虑，可以试点，从做存储角度上看，保证存储支持传统的FC能力，以及新的NOF适配能力，将来用户不用更换存储，换一张卡的事情。

该证券用户发表观点：

从用户的视角来看，其实我觉得如果是不是信创场景，目前NVMe替代传统的FC还是很困难的，因为我觉得根本没有替换的动力，第一个如果你走 rocket，在网络性能上的提升相比现在的 FC，对于我们用户来说提升几乎是微乎其微。比如说从0.15毫秒提升至0.14毫秒，这0.01毫秒的提升其实对我们对用户来说收益根本不大，反而需要承担更多的稳定性和生态风险。但是从信创视角来看，虽然监管没有明确要求，我行还是共用FC，后端是用信创存储，但是交换机还是用的FC，如果后续随着国家的产业或者包括替换度逐渐提升的话，有可能一整套的存储端到端的解决方案。因此从信创角度去突破替换的话，我觉得用户还是有一些动力的。

主持人昼者回复：

信创确实是近年来行业重点关注的大事件。今年2月份，监管部门一次性发布了今明两年的任务，分别为30%和50%，分类方式与去年大体一致。对于银行机构来说整体压力还是相当大的，特别是近两天俄乌冲突后，一些国外重要IT产品供应商都宣布对俄罗斯制裁，不予提供产品和服务支持。国内很多专家从各层面都对该事件进行了解读和猜想，我个人认为在此事件的推动下，信创推广一定会更加坚定、更加广泛和快速。

刚才有老师提到从技术产品功能和解决方案来说，可能不是当前最好的选择。毕竟自由竞争环境下，市场这只看不见的手会根据你的产品优劣进行动态调整。但我们也要考虑到信创这个问题更多的可能还是政策层面、国家安全层面，也就是说国家看得见的手调节的问题。所以在这个情况我倒觉得咱们在整体信创的选型时，不仅是要考虑产品稳定性和好不好用的问题，同时我们还是要在站在国家大的安全政策发展趋势上面来考虑。

针对信创存储的选型，我个人理解存储这方面相对计算资源、操作系统、数据库等产品来说，我倒觉得压力会更小一些。一是存储跟上层的操作系统，数据库、中间件和应用系统来说，相对比较解耦，在存储层面基本存储厂商就可以把控。

二是存储功能主要是通过软件特性实现。三是从当前信创存储生态维度来说，相对操作系统、数据库、中间件这几个维度的厂商来看，最起码我觉得存储这个维度，根据我们自己用的情况来看，华为存储从功能特性、保护性能和服务生态等方面是丝毫不逊于、甚至领先于传统国外厂商。

四是从存储信创芯片来看，华为拥有自己的RAM芯片，也一直在推动基于RAM的信创存储，取得了不少成效。一方面是华为作为拥有RAM芯片和存储等多个关键产品和组建设计生产能力的厂商，在自身生态内的融合度和更迭速度一定具有先进性。另一方是RAM芯片的单核性能略低、多核并发能力和尺寸偏大等方面，其用于存储产品场景，不仅扩大了其芯片优势，还弥补了其不足。现阶段来看，可能RAM更适用于存储控制器芯片。从我行和同业的使用和测试情况来看，效果都不错。

二、全闪存储架构设计

1、容灾方案如何设计？

某银行用户提问：

我们的架构为数据库上层通过ASM技术使用两台独立的存储。跑批时会对数据库做六份快照进行数据抽取，如何评估这些快照是与主数据库放一台存储，抑或通过同步技术放不同存储上以分担压力？两种方式各有何种冗余方案？

互动答疑专家刘振国回复：

我行主要通过业务层逻辑来解决这个问题。存储快照的设计策略需要考虑其对业务的压力，实现一个均衡，个人认为可以从管理和运维的角度来考虑去做这种干预。

华为专家武装回复：

在很多城商农信体系下，城商行很多的用的TATA集团核心生产系统，与EMC配合做的很好，通过生产卷克隆出来，从克隆卷上做清账对账的业务。从存储视角看，完全支持这个体系，需要计算下基于原卷、快照、克隆整体的性能抽取压力是多少，目前看全闪存阵列支撑几十万IOPS都不是太大问题。而且，华为OceanStor Dorado在研发阶段就有明确要求，快照性能与原卷性能互不影响，每组LUN创建16组以上快照，分别对原卷和快照进行压力测试，并确保对对方的影响小于5%。

如果是多套存储需要上层把一个完整副本放在其他存储上去，存储阵列本身无法保证跨两套存储数据一致性，除非是双活、同步复制等容灾方式，从存储视角上来讲，希望客户建立在一套存储中，可以多控，可以分池，可以设定QoS。

主持人昼者回复：

我比较同意两位专家上述的看法。我行所使用的核心系统就将华为DORADO的快照与业务流程相结合，实现7*24小时模式。目前生产库总数据容量约9Tb，每日批量前后均做一份快照，分别用于参考库（业务只读库）与ODS抽数库，ODS每日抽取量大约600G。从投产至今两年多的运行情况来看，对业务几乎没有影响，同时存储性能虽然处于全天峰值，但与瓶颈相差甚远。因此，建议一是在存储规划时，尽量将业务主库与快照复制盘尽量隔离分布，降低相互干扰。二是从业务逻辑也应用架构层面综合考虑数据高可用性。三是灵活考虑存储3DC容灾方案，如在主中心部署两台存储实现双活，远端（同城或异地）实现远程复制。

2、存储快照可以跨存储运行吗？

某城商行用户提问：

如果放主存储上，如果这台存储故障了，那么快照是可以在其他存储上继续运行嘛？

华为专家武装回复：

不可以。存储的数据保障方式无非是两种，一种是横向的，靠容灾，一种是纵向的，靠备份；两套存储如果没有任何关系，是无法保证数据一致性的；单套存储失效，可以考虑做双活或者主机镜像能力，或者备份，光靠另一套无关存储的快照无法拉起。

3、容灾方案采用哪种技术？

某城商行用户提问：

双中心存储架构下，对数据库数据同步场景来说，是推荐使用应用级的容灾方式，还是基于存储底层的复制技术。

互动答疑专家刘振国回复：

从同业经验来看，实际上在做同城容灾时，两种技术还是有差异的。例如用Oracle的ADG的方式，使用最大性能模式，与存储双活方面的区别有哪些。

采用存储双活方面，能够做到极致的RPO是0。

如果采用数据库上层这种方式最大性能模式，其实是一种异步的模式，不能做到RPO极致为0的这种情况，需要一些IO的补偿，比如说Oracle也有类似同样的这种方案，比如说采用fasting这种方式，就构建一个fashion。比如在本中心是采用最大性能模式，还是最大保护模式来保证IPO是0，总之是通过数据库层面解决。如果采用最大性能模式，肯定要做一些io丢失的补偿。

华为专家武装回复：

存储比数据库最大的优势就是切换快，推荐数据库层面跨层同城做了ADG异步，但是RPO不等于0，存储层走了同步复制，可以将RPO=0同步到日志卷，通过脚本方式替换掉ADG异步传输过去的redo卷，实现数据RPO=0的完整回滚。这套脚本在用户处已经成熟应用，基本上半小时可以切过来。

我们对用户的建议，上层数据库，异步复制，保证快速切换，底层走存储同步复制，配合起来，实现RPO=0的替换，即使回退数据也会是完整的。这个体系目前是最优的。

4、同中心双活存储对性能是否有影响？

某城商行用户提问：

同中心双活存储，与同中心单台存储相比，性能是否会有比较大的影响？

互动答疑专家刘振国回复：

可以从存储双活这个机制来分析，主机的IO存放于缓存之中，存储双活模式会把缓存里面内容同步到双活存储的缓存中。存储级的这种延迟我们可以基本上忽略的，因为缓存这种是纳秒级的延迟，所以这块的一个IO有影响，如果链路质量好的话大概也是在1~2个毫秒。

5、基于存储故障域场景下，san交换机规划方案如何设计？

互动答疑专家刘振国回复：

SAN交换机作为整个存储系统的枢纽也最容易出现问题的一个环节，确实是需要好好规划。我觉得有几个点，首先是双fabric。第二点是导听器director的冗余。Director分了很多poor blade端口版，我们在做存储前端口的物理连接的时候，要规避把所有的鸡蛋放在一个篮子里面。我们可以把模块、连线、芯片等各模块均交叉互联提高冗余高可用。

三、全闪存储测试选型

1、三中心的存储容灾架构如何设计？

某城商行用户提问：

闪存盘使寿命期限如何，是否能持续使用10年，为了安全生产数据中心存储本地高可用如何设计，三中心存储架构如何设计？

华为专家武装回复：

1、维保年限常见的就是五年，从实际现网操作看，从实际客户压力的情况来看，SSD寿命远超出一般的维保周期，其次基本上所有厂家都提供在线可视SSD可视寿命视图。单盘寿命以现网实测来看，都是满足长期使用，不止五年；

2、要全面考虑整体的TCO，维保费用不是线性的，越往后越贵，实际使用中如何利用，需要结合系统维保年限，维保的费用去整体考虑的一个事情，从商务角度是否继续使用，这个需要另外规划；

3、存储层面比较常见的组网方式有两种，一种是标准的环形3DC，主中心和同城容灾中心做双活或者同步复制，分别跟异地做异步复制，这种方式下，主中心略显单薄，通常，客户会采用数据库层面在主中心再做一份RPO=0的数据库副本，便于快速拉起；一种方式是双活+同步+异步，主中心双活，确保生产的高可靠，同城数据中心做同步复制，确保同城RPO=0，异地异步复制。

互动答疑专家刘振国回复：

我觉得可以从四个维度来看。

一是SSD盘寿命。各厂商SSD出厂前会在实验室进行读写测试（DWPD），一般来说这种测试比我们实际使用环境更为苛刻，因此我们在选型时可以参考这个参数。从我行实践来看，闪盘的寿命应该是比机械盘更好一些，同时还有些其他能力，如抗震，在搬迁中SSD盘是要优于机械盘的。

二是监控功能。我行在采购时，明确提出存储产品必须具备通过管理界面或命令行模式，便捷的查看当前闪盘的磨损程度和寿命的预期值。我们在运维时，可以将其作为一个监控功能，提前预警。

三是厂商服务。有的厂商会在采购时，提供一些个性化的服务，比如说闪盘到寿命之前有一些预更换种的高级服务，通过提前更换损耗较高的SSD盘，降低风险。

四是架构设计。存储实际上它作为咱们it技术者里边最底层，它关于数据存储肯定是安全的最重要的，在核心系统建设方面，单存储已经远远不能够满足我们的需求了，那么我们在设计数据级高可用的时候，可以采用类似Oracle ASM normal或者其他传统技术，比说存储双活，如果担心同城链路质量问题，也有好多企业采用同一数据中心，不同机房的双活方式，这也是一种规避单存储单点故障的方案。我们在规划信息系统的健壮性时，要逐步的往高了去看，比如说单盘的健壮性，包括单存储的健壮性，我们要通过架构级的高层设计去规避这种问题。

主持人昼者回复：

我补充下我行SSD盘实际使用情况。我行采用了6台DORADO18000，组成核心和外围系统2组同城双中心3DC架构，一共使用了近500块SSD。在投产后的2年时间，只更换了一块硬盘，整体损耗率还是很低的，相比原存储的机械盘基本每周更换2-3块，差异确实很大。

在存储容灾体系设计方面，有两点需要考虑。一是存储3DC如何设计，是“三中心”各放置一台，还是“两中心”放置三台，这可能与行方的机房地理位置、带宽质量和设计理念都有关系，需要综合考虑。二是多技术组合使用。存储架构只是一个容灾体系中非常重要的基础架构，但没有“万能”的可以应对所有灾难场景的技术，只有跟适合的技术。因此在容灾体系设计时，需要结合灾难场景，综合使用多种容灾技术，以达到业务连续性目标。例如我行在规划“两地三中心”的容灾架构时，由于地处华中地区自然灾害较少，同时同城双中心双线裸光纤互联带宽质量较好，因此我们采用了主机房两存储双活、同城存储远程复制和数据库同构复制、异地数据库异构复制的方案，优先保障单中心存储数据的可用性和恢复时间。

2、POC中重点关注哪些指标？

某保险用户提问：

核心系统存储一般要同时进行同城灾备（同步复制），关于这方面存储选型时该考虑那些poc测试？

互动答疑专家刘振国回复：

个人认为存储的poc主要考虑以下几个方面：

首先是安全性。比如说我们依托于存储双活这种存储级的技术去实现的时候，主要关注两个方面。一是存储本身的高可用性，如控制器、板块等故障的冗余性；二是存储容灾架构的安全性，如复制链路、脑裂仲裁、冗余功能等20多个方面。

其次是性能。可以采用工具测试，如fio等，建议使用模拟实际业务场景进行性能测试。

最后是功能性。我行在数据保护上，一般在业务功能或逻辑上实现，比较少使用快照等存储技术。建议具体问题具体分析，一定要结合业务场景进行功能测试。

华为专家武装回复：

我补充几点。一是存储数据复制，在实践中建议关注自身带宽能力，我们在实践中发现很多银行的带宽情况并没有想象中稳定，因此我们在设计存储复制方案时一定要与带宽质量相匹配，最好能让存储厂商提供存储复制的同步与异步的转化功能。

例如，我们在一个银行客户实际场景中发现，实际带宽的标准极限是825兆B的传输速率，而实际客户带宽跑到780、790兆了，就不敢跑同步了，数据复制延迟时间特别大，影响了业务运转。因此我们认为存储容灾最好具备同步转移的能力，如果业务峰值期间由于带宽能力影响了同步复制的周期，导致客户业务主端业务生产的数据访问能力受影响，这时候可以切换为异步复制模式，待带宽恢复正常后再转为同步，大家在实践中一定要小心这种情况。

二是重点测试对实际业务性能的影响，一般来说各厂商都提供了足够丰富的样例，重点测试下IO叠加对阵列的带宽能力影响。另一方面是存储容灾切换的流程，目前还没有一个标准的行业规定，每一家切换的步骤流程其实有点差异，所以一定要把切换流程都要完整测试，让厂商提供一些脚本化能力，以便与上层应用对接做一些系统化的切换演练。

三是一些细节方面，如存储容灾体系建成后，在线扩容能力如何？是否影响业务等方面。

3、如何基于业务需求提出具体POC指标？

某农商行用户提问：

核心存储选型指标问题: 如何根据业务提出的需求？比如tps指标、交易量、账户数、跑批时间等指标要求，推导测算存储的指标，比如:IOPS、控制器缓存大小、容量大小等。

互动答疑专家刘振国回复：

其实我觉得这两条路都可以走。一方面作为甲方客户在与存储厂商交流时，很难就现网业务模型或压力，提出一个明确的一个IOPS的准确需求。我觉得一方面可以结合我们现网存储的性能量分析，大概推导出业务的性能压力情况。比如说月结时，业务在不同时段典型业务周期的时候，我们可以把现网存储的性能压力情况导出来，进行具体分析，作为性能指标的重要参考。

第二方面一般存储厂商也有性能推算工具，会根据现网存储使用情况，推算出所需控制器、内存、后端板卡、IO链路等重要部件的配置，给甲方拿出最佳建议。对于POC测试来说，我觉得带业务的POC测试是最准确的，通过测试结果同比例的横向评估所估算的性能和配置相对更为科学。

4、数据库存储如何选型？

某证券用户提问：

核心系统全闪存储选型时的性能指标如何考虑，特别是针对关系型数据库所需求的高IOPS低时延场景如何进行选型？

互动答疑专家刘振国回复：

传统存储所使用的机械盘瓶颈往往就在于其IOPS和延迟上，一般来讲，全闪存储的IOPS基本都上百万，延迟一般都在一个毫秒以下，结合我们行新核心上线之后，基于我们所使用的全闪存储，每个月会有月报去观察其在业务高峰的性能情况。

从实际情况来看，响应时间一般都是在一个毫秒以下的，从缓存代写率，也就是脏数据这块一般也是在20以下，很低，比如说后端磁盘最末端IO介质能充分去吸收去消化前端业务带来的IOPS的时候，前端的无论是缓存脏数据的代写率，还是控制器 Cpu的利用率，整体上具有一个协调性。

如果此时我们使用机械盘，我们会观察到基于机械盘的存储往往是磁盘组利用率都达到90%以上，这时候的cwp就是缓存代言率都得超过40，这时候你缓存的脏数也得写下来，就会造成缓存命中率的下降，进一步会影响性能。

总的来说，几家头部全闪存储厂商的产品在本质上性能差距不大，主要在于一些极限情况下的性能差异。例如单Lun的性能，实践中我们核心系统往往是独占物理存储不会和其他的系统共用，在此场景中，单系统单lun的性能就需要一个极致的发挥，就需要在全闪存产品中针对此点优中选优了。

另外如果可以能拿出业务场景的特定io模型（io大小，读写比等）下的IOPS指标，一般厂商有工具可以推出建议的配置。

用户专家 rechen 回复：

其实从行业整体来说，核心系统的重要等级应该是最高的，针对存储选型的性能指标，我们其实是有具体的指标。对于核心系统的数据库所用存储，我们一般要求采用高端全闪存储，至少4个控制器，同时要求小块读写，如4k或8k随机读写的IOPS达到30万，95%的分位是要小于两毫秒。另一方面，可以利用工具进行压测，包括将两台变成一个成熟组等方案的压测，保证核心存储的性能。还可以对一些产品的个性化功能的测试，如对单LUN的打码使得核心数据库遇到一个高峰的时候，性能也能够很平滑。

5、信创存储如何选型

某证券用户提问：

请专家就信创存储选型经验进行分享

互动答疑专家刘振国回复：

目前信创确实是大趋势，在存储领域也有华为、宏杉、浪潮等厂商。作为一线的存储运维人员，我们需要持续关注国家的信创政策要求，包括尤其是对存储的信创名录。从现阶段来看，在信创存储芯片领域，主要分为基于ARM和海光两个大类。一是ARM相对海光X86来说，主频相对低一些，但核数更多。二是信创存储与传统存储的区别在于，存储的操作系统里面，会针对 ARM的CPU有一些特殊的定制化的开发，但是这个比例还是非常小的。三是主要考虑信创存储产品的外围生态兼容性，比如自带的监控系统，API兼容性以及第三方监控系统的兼容性。

总的来说，我觉得兼容性整体来看还是没有问题的。因此，我觉得一方面是密切关注政策，另一方面是技术上，重点关注功能指标和与现网的兼容性。

四、全闪存储运维管理

1、如何开展异构存储数据迁移？

某城商行用户提问：业务从EMC vmax切换到Dorado的话，EMC的powerpath支持Dorado产品吗？如果更换华为的存储管理软件，是否需要停机迁移数？在存储替换过程中，一般是通过主机层或数据库来做数据迁移，还是通过存储层面完成迁移？需要停业多久？风险如何？

华为专家郭洋回复：

数据迁移首先得确认您当前系统的版本，现在linux主流的内核版本我们都支持在线迁移，具体的做法就是，在linux上安装我们的多路径版本，通过多路径伪装，新的业务写入dorado，后台通过异构慢慢迁移后台数据；但是如果您是AIX 和 windows，我们就得先停下机处理，停机基本在半小时，再加上业务启停一般总体在2个小时的样子。整个启动数据迁移后，按照您的数据量决定时间。华为有专业的数据迁移团队。专门搞迁移。

2、NAS存储如何迁移？

某城商行用户提问：

核心系统全闪存储在选型时的应具备SAN和NAS一体服务的能力，针对核心系统与外围系统交互使用双活NAS的场景，由旧NAS至新双活NAS的替换过程，是否有成熟的方法和工具来保障数据的安全迁移与回退？（如现有NAS策略的收集/梳理、配置在新nas的导入工具等）

互动答疑专家刘振国回复：

这个问题，我去年进行过分享。我建议对于核心系统包括重要业务系统，针对不同数据结构的业务系统还是建议分离。例如核心系统、手机银行等重要类系统，都规划独占自主存储或分区，目前我们的生产存储规划规范是把SAN和NAS做分离。

一方面是NAS存储对延时要求其实并不高，它的数据块往往也很大，FC SAN这种架构往往都是较小block的数据类型，对延时比较敏感，所以我们做就很彻底，在物理层面就进行分离。即便需要整合，也建议做不同的硬盘域，在最底层把NAS和SAN分开。如果使用华为存储，在建池时，操作界面有一个下拉框，提示其用于SAN或NAS，大家应该也都有过实际的经验，实际上华为也都考虑到这一点。

第二方面，目前我行存储规划按照分级分类建设，在存储整合时，应该考虑到存储运营的便利性，节约成本，我行目前对一般类系统会进行存储的整合，毕竟此类业务系统没有同城灾备或者说异地灾备这种诉求，对于重要系统还是建议分开建设，其根本还是基于业务系统分级分类。

针对NAS迁移，我们正在开展这方面工作，但不是从原NAS向新NAS迁移，而是先把原GPS往NAS上迁移。从业务需求出发，如果能够容忍较长的迁移时间，也可以用最朴素的CT迁移方法，这种方法最简单，可视性也最好。如果业务系统相对敏感性，就是说不允许迁移文件在传输中中断，也可以采用这种中间设一个文件路由的方式。有些同业和厂商共同开发了这么一个产品，采用这种设计路由的方式，实现在线业务无感知的迁移。

NAS的高级功能，比如说qtree等。我个人的理解是，如果是某个厂商的特殊的功能，如果往异构产品上迁移，我个人认为还是有壁垒的，还是有一些代码的区别，如果同构上有可能有这种实现。

华为专家武装回复：

1，存储行业基本都实现了SAN和NAS一体化的部署，在国内海外银行领域看，一般情况下采取的分离的部署方式。客观讲，不可能不影响，客户视角很难评估清楚NAS的峰值性能，SAN的峰值性能各自是多少，做好控制比较难，真正实现一体化一般是SAN海外建的比较多，中国金融行业来看，都是成系统建了SAN和NAS资源池，以防止重要系统间的互相影响，这是我们看到的现网问题，大行都是拆开做的；

2，迁移涉及到的停机时间问题，主机迁移，速度不是问题，时间也不是问题，主要是迁移完成后，主存系统同步问题，因为迁移过程中文件有修改，数据需要刷新到新存储中去，这个需要重点关注。考虑清楚停机时间，涉及到文件数量，现网大部分开源工具都是需要遍历在迁移过程中所有的拷贝文件，当遍历规模达到亿级的文件，遍历的速度会比较慢，这是一个问题。厂商提供迁移工具，做了很多优化，最底层文件不会做遍历，直接目录级拷贝，所以基本上在亿级文件上，停机时间控制在2h以内；

3、存储行业没有一个统一的标准，相关的配置可以使用工具进行提取，但也需要人工录入一次，对原始的配置信息的读取能力，也需要重新录入到新的系统中去。

3、全闪存储的压缩与去重功能可以使用吗？有何影响与建议？

某城商行用户提问：

全闪存储会不会启动压缩？若启用压缩，对结构化数据存储和虚拟机存储一般达到多少压缩比？

某证券用户说明观点：

根据我在大型保险和证券行业的从业经验来看，各厂商存储的压缩功能实际效果更好。存储压缩效果根据场景的不同也有些差异，一般虚拟化场景大概是1.6倍到2倍之间，是数据库场景大概是2~3倍之间，按照2.5倍这样来评估也是可以的。但是去重的话一般都不建议，除非用作备份或者是远程容灾的这种场景。

以前有多个头部存储厂商产品因为去重功能出现过一些事故，丢失过数据。所以我建议是压缩可以开，不建议开去重功能。另外一点就是说从收益的角度来看，大部分场景除非使用vdi或者备份这种去重特别高的场景，正常的大部分场景数据节约率大概在70~90%都是来自于压缩。其实开去重的收益率并不高，有可能只带来20%的这样的一个数据节约的收益率，但是带来的风险可能大幅提升。

某城商行用户提问：

对于重点业务的数据库场景，在已经使用nvme全闪高端存储的情况下，打开重删压缩后对性能的影响大概有多少。

互动答疑专家刘振国回复：

对于存储的高级功能，我个人建议还是慎用，因为它或多或少会对生产的 io延迟有部分影响，包括做压缩之后，CPU如果没有独立压缩硬件处理卡，由控制器要做需要牺牲一些性能，虽然现在控制器的CPU算力非常高的，但我个人还是对其持中立态度，从我个人这个角度来讲，还是不建议。

4、如何进行全闪存储容量规划和管理？

某城商行用户提问：

在保障业务连续的前提下，如何对资源池进行容量管理，实现资源的最大化共享、最高效的利用、最节约成本？

华为专家武装回复：

基于多年客户交流上看，客户在业务思考上，有自己完整规划，从厂商角度讲，可以提供存储的资源监控能力。基于单套设备很好管理，资源如何利用很清楚，多套设备情况下，有DME进行管理，将资源做整体化视图展示，这些内容在各个大行都已经商用了，将资源合理的展示出来，并且也具备系统使用情况，端到端的性能监控容量告警等这些功能。如果设备多套使用，可以使用DME进行管理。

互动答疑专家刘振国回复：

其实站在甲方视角，大家都有买存储难、用存储容易的同感。我们接到业务部门申请存储时，往往都是1T、10T的需求。

所以我觉得说这个问题可以从两个方面来看待。一是技术角度，从技术维度来制定策略策略，比如存储开压缩，提高存储空间使用率。二是管理角度。我们在做数据生命周期管理的时候，要有这种数据治理的意识，在线、近线、离线数据的管理策略是什么？

并不是说所有的数据都要永久保存，永久在线保存，永久可塑，一下保留10年，因此就需要对各类系统做一个细致的区分，这点也是最难的一件事，因为从需求方的角度来讲，他更注重使用的便利，能够追溯5年前的或者10年前的数据，并且要在一个小时之内调阅出来，这给我们的存储管理工作带来了很大的挑战。所以这方面我们要守好这个口子，在我们技术人员维护资源池，充分利用资源之外，一定要管好上层的需求，其实这个是最应该值得去考虑的，也应该最有成效的方案。

5、如何开展存储自动化管理？

某股份制商业银行用户提问：

如何实现存储自动化部署，例如存储投产后，需要新扩容服务器，可否做到自动化分配空间并映射给主机？

华为专家武装回复：

支持的。

1、实现多设备运维；

2、存储服务化，可以将操作基本化，模板化，自己可以设定模板，直接可以将LUN划分好，在主机上进行运行,DME集成到自动化云平台上去，主机层面，连接调用DME某一个应用，可以自动化的操作。

块资源池华为存储MVP赋能活动数字化转型全闪存储华为存储存储选型

著作权归作者所有

如果觉得我的文章对您有用，请点赞。您的支持将鼓励我继续创作！

添加新评论0 条评论

Ctrl+Enter 发表

匿名评论

在全闪存储全面赋能企业数字化转型趋势下，如何开展核心生产存储选型与块资源池建设？—— 华为存储MVP赋能活动互动环节交流探讨总结（3月5日）

交流达成的共识总结

一、全闪存储应用趋势

1、全闪存储有哪些适用场景？应用发展趋势如何？

2、全闪存信创存储使用情况如何？

3、全闪存储技术发展趋势？

二、全闪存储架构设计

1、容灾方案如何设计？

2、存储快照可以跨存储运行吗？

3、容灾方案采用哪种技术？

4、同中心双活存储对性能是否有影响？

5、基于存储故障域场景下，san交换机规划方案如何设计？

三、全闪存储测试选型

1、三中心的存储容灾架构如何设计？

2、POC中重点关注哪些指标？

3、如何基于业务需求提出具体POC指标？

4、数据库存储如何选型？

5、信创存储如何选型

四、全闪存储运维管理

1、如何开展异构存储数据迁移？

2、NAS存储如何迁移？

4、如何进行全闪存储容量规划和管理？

5、如何开展存储自动化管理？

添加新评论0 条评论

本文隶属于专栏

作者其他文章

相关文章

相关问题

相关资料