xuzc
作者xuzc联盟成员·2022-06-20 18:06
系统工程师·某银行

某商业银行关键系统应用场景存储选型运维实践——运维经验篇

字数 6488阅读 4286评论 2赞 3

摘要: 银行作为传统金融行业,其IT基础环境系统需具备开放、稳定、高效、灵活、安全的技术特点,本文通过对集中式高端存储系统需求和使用场景进行分析,结合实际应用介绍商业银行对于华为OceanStor Dorado 18000 系列高端全闪存储服务的运维实践经验。

全文共分为三个部分:需求分析与选型思路篇、POC 测试篇、运维经验篇;本文为第三部分:运维经验篇。

1、 背景

随着大数据、生物识别、人工智能等新系统的开发上线,新兴应用对存储需求的快速变化以及不确定性成为主要挑战,对象存储、分布式软件定义存储正逐渐成为存储业界的新宠儿,作为以x86 服务器为技术栈,其技术架构的初衷就不是稳定性,而是成本节约和集群规模。但是作为传统行业的金融企业,其上承载的关键系统业务的系统稳定性、可靠性挑战着IT系统 有效支撑能力。 随着业务量的增长, OLAP 业务和关系型数据库大量上线应用,海量文件存贮,超高的性能和时延要求,集中式存储服务管理,这些因素决定着集中式存储在银行这样的传统行业当下承担着IT基础设施中重要的角色。现阶段金融行业关键业务系统存储服务主要以SAN 存储、NAS存储为主,当前大部分业务系统结构化和非结构化数据都采用NAS和SAN存储作为主要存储方案。 笔者将结合本行关键系统应用场景下基于华为OceanStor Dorado 18000 系列高端全闪存储的运维实践经验,与同行共同探讨S AN 、N AS 存储的运维思路与方法。

2、 需求应用场景

目前IT基础设施系统环境主要分为生产环境、待投产环境和开发测试环境。生产环境主要是支撑平日生产运行的关键业务系统、渠道系统、管理系统以及内部其他系统;待投产环境是新系统上线前需要对目标业务系统进行硬件资源、操作系统、网络连接、软件安装、存储分配等分配部署,后经上线前环境配置检查交付给业务部门进行投产;开发测试环境则是包含了联调环境、UAT环境、SIT 环境、编译环境等供项目组日常程序开发、项目测试的系统环境。对于存储服务来讲,无论系统环境重要程度如何划分,提供稳定可靠的存储环境是存储管理工作的底线。

作为IT资源管理部门,ITIL服务管理体系支撑着IT系统服务流程,存储服务也包含在其中,主要服务的需求场景如下:

  • 待投产块存储分配场景:新建待投产环境的SAN 存储数据库服务器分盘场景,包括主机安装多路径软件;交换机配置zoning;存储端分盘mapping。
  • 待投产NAS分配场景:新建待投产环境的NAS存储提供文件存储场景,包括存储端分配文件系统、share目录添加主机权限;主机端挂载远端存储目录。针对已有的文件系统需要新增share主机的场景 。
  • 服务请求块存储场景: 主要针对开发测试环境的块存储分配,其服务内容包含待投产块存储分配场景外还包括云底座存储服务的分配场景 。
  • 服务请求NAS场景: 主要针对开发测试环境的文件存储分配,其服务场景同待投产环境场景一致 。
  • 变更 生产环境 块存储场景:对已上线生产系统进行存储容量扩容、回收的服务场景,包括新建LUN添加到目标LUN组,主机端扫描磁盘;主机端删除磁盘,从目标LUN组移除要回收的LUN;针对下线系统, 进行 存储回收及zone配置清理。
  • 变更 生产环境 NAS场景:对已上线生产系统挂载的NAS目录进行扩容、缩减容量的服务场景,存储端对目标文件系统进行容量增减。针对已有的文件系统需要新增share主机的场景, 进行 存储端及主机端的配置。

以上是存储服务在ITIL体系下日常的工单服务场景,针对存储设备的运维,主要场景如下:

  • 设备安装上电初始化 。
  • 阶段性设备微码固件升级 。
  • 对接集中监控平台 。
  • 设备故障保修及故障问题分析处理 。

3、 需求分析

由于近年来国际形势日益紧迫,外来势力逐渐对我国加大施压,“自主可控、国芯国魂”华为依然成为IT系统国产化的行业巨头,其经过了多年沉淀生产的OceanStor Dorado 18000 系列高端全闪存储已然在金融行业占领了一席之地。

3.1、具备良好的兼容性

  • SAN存储服务方面,主要提供数据库物理机Oracle ASM裸设备分配和VMware虚拟化Data Storage的VMFS分配。物理机存储分配裸设备依托于操作系统,Ocean Store的多路径软件Ultra Path对业内主流的操作系统提供有效稳定的支持,例如:RHEL、AIX、Windows、CentOS等;VMware虚拟化的第三方多路径也有较好的支持;值得一体的是,在国产操作系统方面,有着比国外厂商更优的支持体验,如银河麒麟等。
  • NAS存储服务方面,主要提供NFS和CIFS两种协议接口的文件共享服务。Ocean Store集中式存储支持NFS和CIFS的跨协议访问功能。
  • 存储网络方面,兼容主流以太网络交换机和FC光纤网络交换机。支持LACP端口绑定协议、支持16BG以上端口速率等。
  • 存储网关方面,支持接入SVC、VPLEX等虚拟化存储网关,支持第三方IBM、EMC存储设备异构接入。
  • 集中监控方面,存储设备提供GUI、 CLI、Restful API、SNMP、SMIS等 接口 进行设备生命周期管理 。

3.2、支持功能

  • SAN存储 服务 :容量展示、信息展示、配置展示、LUN创建删除、存储端主机注册、mapping增删改。
  • NAS存储 服务 :容量展示、信息展示、配置展示、文件系统创建删除、存储端share权限。
  • 数据缩减 : 数据重删、数据压缩、数据压紧 。
  • 存储分层:支持SSD、SAS、SATA混插,在线智能迁移热点数据和冷数据至性能层和存贮层。
  • 数据迁移 : 不同性能存储池间数据在线迁移,业务无感知 。
  • 集中管理 : 厂商自研的集中管理平台esight、DME等,兼容性完美,功能性完善。
  • 在线升级: 升级过程中,控制器不重启,主机链路不切换,业务基本无影响,且升级完成后性能迅速恢复。
  • 告警与监控: 提供专门的管理页面,查看所有告警信息或事件信息,根据故障修复建议, 判断 修复故障 ;提供 性能数据采集 与分析,支持实时和历史查看设备性能指标状态 。

4、 架构设计

4.1、整体架构

运维工作整体从结构上划分为三层,分别是服务层、资源层和设备层。

  • 服务层:通过存储管理页面进行基础资源分配和数据接口对外提供集中监控 服务 。基础服务主要体现在工单和服务请求的接受、申请资源管理、配置任务部署、资源规划。集中监控 服务 通过统一的数据接口与集中监控平台相关的功能进行数据对接,并通过定义好的数据接口进行配置的实际下发,接收通知告警、报表和日志; 监视存储容量池利用率,跟踪容量变化,监视利用率门限,采集宏观数据进行分析,预测数据落盘趋势,为采购扩容提供重要依据 。
  • 资源层:对底层设备资源的整合归类。存储池根据介质技术和设备类别分为高端全闪资源池、中端全闪资源池、中端混闪资源池和文件服务资源池,将所有存储的数据池按定义好的资源池策略进行分类整合,并抽象出资源池对应的标签,供分配部署时对业务系统提供对应合理资源配置。 根据存储资源的服务能力,分析业务负载,实现服务级别的量化和定义,以适配不同类型应用的需求 。监控平台通过外部接口收集设备在运行过程中产生的配置文件和性能数据,这些数据通过量化分析后,生成运维所需的报表向管理员输出展现。
  • 设备层:最底层的存储设备,包括盘阵和交换机,存储配置管理员提供对于盘阵和光纤交换机的配置服务,针对每一个基础服务对于设备来说都是原子级的操作,主要使用场景是存储管理员对于系统的日常运营维护工作。

4.2、服务层架构

作为提供服务的主要接口,需要对工单流程制度清晰掌握,了解系统运行数据状态,精通对各项数据指标和阈值界限的意义及处置方式。

4.3、资源层架构

根据存储资源池对应的标签,按照业务系统应用场景并依据系统历史负载情况作为依据进行合理的资源分配。存储设备的生产运行数据也要作为数据资产通过集中管理平台或第三方运维监控平台妥善利用和保存。

4.4、设备层基础服务架构

存储管理员负责日常的存储配置运维工作,需要熟练掌握存储管理工作的命令与操作常识。

5、 实践经验

5.1、整合纳管现有资产

按需求纳管现有华为OceanStor Dorado 18000 系列高端全闪存储设备,通过华为原厂的集中运维管理平台esight或DME纳管资产。纳管设备后,参照现有CMDB系统导入配置信息,补全存储光纤连接线标签信息、设备实际物理物质。按照运维习惯,制作统计报表、配置报表、台账流水报表为运维工作提供数据支撑。利用标签技术从多个逻辑和维度整体规划盘阵级别、存储池类型、设备用途、服务能力等方便业务针对不同存储服务需求的资源定位。

5.2、配置规范管理

规范所有命名配置,如设备通用名、存储池命名、LUN命名、存储前端口命名 、映射视图命名、 Zone命名、 Alies命名等。这些命名规范内容要考虑数据中心代号、设备型号、集群名称、主机名 、网络拓扑等信息,从配置命名大致看出整理链路中各元素的关系,有助于整体环境的掌控和故障定位。

5.3、硬件故障识别自愈

集中管控平台收集华为 DeviceManager 内硬件告警,根据命名规范和拓扑结构识别翻译故障说明,分析整合告警信息,减少重复无用告警影响故障判断,并通过短信平台主动上报,通过收集量化物理部件性能指标,形成指标曲线。例如通过收集HBA卡SFP光模块的光功率指标,可清晰观察到故障模块光功率曲线下滑趋势,能做到故障部件提前预更换,在故障发生前解决故障。针对 业务连续性,通过高精度的设备健康状态监控和亚健康识别能力,快速识别故障点并通过冗余接管技术进行故障隔离和故障自愈修复,修复成功则继续接入到系统中提供服务,修复失败在通过设备告警提示人工介入进行故障部件更换。




5.4、存储资源管理

通过esight和DME的集中式管理,掌握全环境存储资源裸容量、池容量、重删压缩节省率,并按不同维度展示当前容量、增长率、历史趋势,根据容量趋势为扩容资源提供数据支撑。掌握存储设备CPU利用率、时延、IOPS、带宽等性能数据,设置性能阈值整体把控设备运行压力状况。

5.5、流程管理

5.5.1、SAN存储流程

SAN存储服务流程从工单接到需求开始,在接到工单的同时收集主机信息 ,其中包括:

1、 主机名称(主机名作为流程唯一识别标识)、IP信息、业务名称(根据业务重要性识别存储标签)、物理位置;根据收集到的主机信息结合主机系统内和光纤交换机login的wwn信息进行设备的物理连线。

2、 物理环境准备完毕,进行存储设备与主机设备的连接工作,首先根据主机和存储设备的物理位置确定连通交换机,按照业务级别标签选择容量富裕的存储设备(在存储池内根据本单位采购扩容流程周期设置存储容量阈值并参考存储设备自身的使用性能);随后进行光纤交换机的配置工作,根据光纤交换机、物理主机、存储设备名称编排 Zone name,例如:SAN753 _ bancs01_HW01 , A lias名称使用主机名后接HBA卡端口号命名,存储前端口组根据连接业务系统主机数量和性能带宽繁忙程度进行选择。

3、 完成链路连通工作后对主机进行多路径软件安装,使用自动化编排工具进行安装并建立多路径软件版本库。

4、 最后,按照新建、扩容需求创建LUN并划分LUN Group,存储端注册主机信息,对主机组、磁盘组、存储前端口组进行 Mapping建立,主机端识别存储逻辑设备,检查多路径状态正常后交付工作。

5.5.2、NAS存储流程

NAS存储服务流程从工单接到需求开始,在接到工单的同时收集主机信息其 中包括:

1、 主机名称(主机名作为流程唯一识别标识)、IP信息(管理网段IP地址和NAS网段IP地址)、业务名称(根据业务重要性识别存储标签)、业务系统客户端文件系统挂载点。根据业务系统主机NAS网段IP地址、存储设备使用率、存储设备运行压力选择存储设备并确定NFS或CIFS和容量需求。

2、 根据工单需求整理包含主机名称、share文件系统名称(文件系统名使用主机名后接客户端挂载点命名)、NAS IP地址、管理IP地址、客户端挂载点、业务名称等信息归档成配置文件,根据配置文件创建share文件系统并在业务系统客户端针对NFS和CIFS不同的共享方式对文件系统进行网络映射。

3、 针对文件系统的增加缩减操作,华为存储的SmartThin功能支撑存储端在线变更文件系统容量,做到操作系统层面无感知,对于NAS存储的回收工作,需要先从系统端解除映射,之后判断系统的NAS IP地址是否能ping通,在确认NAS IP地址被回收后再在存储端删除该文件系统的export配置,根据业务系统重要级别设置反悔期限,到期后再对目标回收文件系统进行删除操作。

5.5.3、存储升级流程

为了确保各个业务有序投产和信息技术系统稳定运行,存储设备作为IT基础设施的基底,其固件升级也尤为重要:

1、 升级前准备 :确认升级前版本、准备Smartkit升级工具及升级包。

打开smartkit选择升级前工勘进行升级策略设置“设置目标版本及升级方式”。


添加设备进行升级评估,评估完成后查看不通过项。

选择 “ 阵列 信息收集”窗口,在设备列表中,选择需要收集信息的设备,单击“收集”开始收集 信息收集,以备后期查看配置信息。


2、 升级操作: 返回首页点击设备升级进入升级策略设置。

添加设备后选择升级包及升级方式。

选择数据备份路径后勾选设备,点击确定进入阵列升级。

在设备升级界面,单击“阵列升级”开始升级操作 。

单击“执行升级”按钮开始升级 。

系统弹出“升级确认”对话框,确认完成后,选中复选框并单击“确定”按钮进行升级 。

系统进入设备升级 ,自动 导入升级包 、升级前检查、数据备份、执行升级、升级后验证。

3、升级后验证后需要 查看升级后版本与升级包是否一致,确认升级完成。

快速升级完成后,单击“巡检”

巡检后查看 “查看报告”

6、 总结

通过使用 OceanStor Dorado 18000 系列高端全闪存环境,针对不同厂商存储解决方案的性能和特性,提升自身业务持续发展的可控性。对于全闪存储发展来看,相较于多年前的传统非闪存存储,在性能上有着质的飞跃。

本次存储选型与对华为OceanStor Dorado 18000 系列高端存储的实际运维,作为银行I T 一线人员,笔者也切实体会到 存储系统的运维涉及到多方面的问题,不同于其他IT技术运维,处理的问题都是比较底层的问题。由于存储设备的精密和昂贵,培养一个存储运维人员的时间和成本较其他技术领域代价相对会大一些,但管理层面上可能只是信息科技部门下属处室的一个组,但仍要面对很多管理问题。所以存储运维工作要分层开展。按照层级划分,将各种服务细化:

设备层提供最基础的存储设备级服务,此层面我们需要保证每一台存储是可以正常工作的,是可以正常使用对外提供服务的,并且保障存储设备的正常运行且是可管理的,基础设施层的维护是为了对资源层的交付使用而服务的。

资源层对存储设备有了统一逻辑上的管理,在这个层面有系统性的统一管理体系,容量系统,监控系统,此层面可以发现底层存在的问题,并交由设备底层处理,并在这个层面保证应用服务的正常运行。

服务层主要是接受需求部门请求,将存储 服务管理业务过程 落地 到IT系统管理中 。

随着业务的发展和云计算大行其道,金融行业关键业务系统对存储运维能力不断挑战,传统的运维方式也逐渐展现出疲态,所以探索新的运维技术也是作为IT从业人员的使命,通过集中管控平台扩展自动化、智能化、一体化的运维管理方案来改变当前略显落后的运维体系,不断的创新求索才是立命之本。

## 相关链接:

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论2 条评论

chao_cnchao_cn存储工程师金融科技
2023-03-30 16:44
您好,想了解一下咱们行里的华为存储微码管理是怎么开展的,对于huawei存储设备会定期追一个统一的推荐版本嘛,还是各自存储的版本追一个最新的热补丁
Senko leeSenko lee课题专家组系统架构师江西裕民银行
2022-09-01 18:40
文章内容详实,操作性强,点赞!
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广