xuzc
作者xuzc2021-06-03 11:55
系统工程师, 某银行

银行基于华为 DME 实现存储智能化统一管理平台应用实践

字数 5478阅读 13450评论 3赞 7

1 项目背景

我行从 2013 年起,启动了虚拟化改造工作,提高了硬件的使用效率、降低机房空间、节约用电成本。 2015 年,我行将大部分的 IT 资源池化,进行统一的运营,统一的运维。基于性能与成本的考虑,在不同群集中选择使用集中式存储、网络存储或分布式存储。 17 年我们建成了业内首个云网联动的金融云平台。 2018 年着重于多元化软件定义的探索, 2019 年,开始重塑云服务理念,增加了大数据、容器、数据库、安全等 9 类 40 多项云服务。

实施科技创新驱动一直是我行长期发展战略,云计算在我行大行其道使得前端用户诉求响应更及时、更灵活、更弹性。云计算基础设施特性取代了小型机、高性能集中存储设备,随之而来的是擢发难数的 PC 服务器、中低端存储设备和庞杂的 SAN 网络。在我行云架构规划体系下,存储系统作为数据的直接容器、 IT 支撑的重要地基,其可靠性、稳定性、先进性、可扩展性、开放性和标准化决定了应用服务和业务数据安全、稳定、高效、灵活。如此庞大的 IT 支撑挑战着我行的运维能力。

2 痛点难点

存储管理主要面临的问题 :

* 面对云平台对 IT 基础资源发放敏捷和灵活的特性,存储资源池容量保障是重中之重,为防止存储资源超越业务需求导致闲置浪费问题,存储资源统一采用弹性供给原则,由于 IT 基础资源部门缺乏对业务发展需求的精准评估,设备采购立项、采购流程的规章制度、设备到货安装初始化等等往往需要数月时间,存储资源扩容的购置需求难以预测。

* 存储资源整合度匮乏,存在大量上线前配置和例行变更值守工作需求,大量人力精力进行着简单重复的工作极易引发人为操作失误问题,需要统一管理界面支持日常运维工作。

* 存储管理规模大、厂商多样化、设备数量、版本、类型逐渐增多、存储资源管理日趋复杂。硬件设备数量众多,硬盘、电池、电源、控制器、光模块、光纤线路等故障量大,在故障常态化下保障设备可靠性存在挑战。

* 我行业务系统种类浩如烟海千差万别导致数据类型与性能指标截然不同,业务调优复杂,往往在问题暴露后才能启动分析和调优。存储设备性能信息缺乏统筹且分散,没有统一接口对宏观性能数据进行分析。

3 需求分析

* 资源宏观把控,准确预测未来
监视存储容量池利用率,跟踪容量变化,监视利用率门限,采集宏观数据进行分析,预测数据落盘趋势,为采购扩容提供重要依据。

* 整合资源,迈向“自动驾驶”时代
建立可审计、可回滚、可跟踪、可编排的自动化端到端配置流程,提升运维效率,减少简单重复的工作量,避免人为操作失误。

* 故障预知,全资源图谱可视化
构建存储网络可视化资源图谱, 实时监控存储设备物理部件运行状态,不仅限于硬盘、电源、控制器等重要部件,还要重点关注存储网络光纤链路质量、链路抖动、模块光功率衰减、链路失效和潜在的设备故障隐患等问题,收集故障日志研究分析,更精准的储备备品备件,提高维护效率,节约本地仓储压力。

* 定义量化服务级别,物善其用
根据存储资源的服务能力,分析业务负载,实现服务级别的量化和定义,以适配不同类型应用的需求。

4 技术方案

为解决上述痛点,在认识到运维平台统一、智能、开放的重要性并结合我行运维工作实际情况之后,我行引入了华为 DME 存储智能管理平台。

华为 DME 通过统一的管理界面、开放的 API 、云上联动的 AI 使能、多维度智能风险预测与智能调优,实现“规划、建设、运维、优化”存储全生命周期自动化管理与智能运维,简化存储管理,提升数据中心运营效率。

4.1 项目规划

4.1.1 组网规划

DME 三节点部署场景下,通过浮动 IP 地址对外提供服务。

DME 需要接入存储、 FC 交换机以及主机完成存储资源分配的自动化以及存储智能运维,所以需要保证 DME 和基础设施(存储、 FC 交换机、主机)管理网络的连通性。 DME 通过独立管理服务网络登录主机系统,与生产业务网络完全物理隔离,不会因平台对设备日常数据采集的网络开销影响生产业务网络环境。

4.1.2 存储管理 规划

* 存储设备接入管理:基于存储设备管理 IP 、端口、账号、密码以及 SNMP 相关信息, DME 系统自动通过 Restful 协议以及 SNMP 协议获取存储设备的基础信息以及告警信息。

* 存储设备接入管理:在大规模场景下, DME 支持用户通过 Excel 批量导入存储设备以及批量修改存储设备鉴权信息。

* 存储信息查看:接入存储设备后, DME 界面可查看 存储设备基础信息、容量信息、容量预测、性能信息、资源列表、热点识别、硬件列表。

* 存储资源管理:接入存储设备后, DME 支持对存储资源的操作。

4.1.3 FC 交换机管理 规划

* 交换机接入管理:基于交换机设备管理 IP 地址、端口、 SSH 账号、密码以及 SNMP 相关信息, DME 系统自动通过 SSH 协议以及 SNMP 协议获取交换机的基础信息以及告警信息。

* 交换机信息查看:接入交换机后, DME 界面可查看交换机详情、交换机端口信息、 Fabric 信息。

* 交换机资源管理:接入交换机后, DME 支持对交换机端口启停和配置增删改及备份等操作 。

4.1.4 主机管理 规划

* 主机接入管理: DME 通过 从存储设备侧纳管已有的主机,提供主机 IP 、账号、端口、密码通过 SSH 协议接入主机,或手动录入等 方式获取主机信息

* 主机信息查看: DME 接入主机后,支持查看 主机基础信息、启动器信息、已映射的卷信息。

* 主机资源管理: DME 接入主机后,可修改主机名、 IP 、启动器信息等。

4.1.5 vCenter 服务器管理 规划

* vCenter 接入管理:通过 vCenter 服务器的管理 IP 、端口、账号、密码信息, DME 系统自动通过 SOAP 接口获取 vCenter 相关信息

* vCenter 信息查看: DME 接入 vCenter 后,支持查看 vCenter 基础信息。(数据中心、 ESXi 集群、 ESXi 主机信息、 Datastore 信息等)

注:纳管设备账户密码按照我行用户口令管理细则,针对密码有效期、密码复杂度、密码历史、最小长度等规则设置,定期按要求对平台纳管设备进行口令更新。

4.2 项目建设

“ 建设 ” 阶段包含了存储资源的自动化分配、 FC 交换机的自动化分配,重点通过自定义的方式实现 SAN 存储的自动资源发放。

4.2.1 基于管理员自定义的辅助式自动资源发放

华为 DME 块存储资源基于管理员自定义的辅助式自动资源发放流程如图所示:

通过选择存储设备、存储池、设置 LUN 的基础信息、 LUN 参数、映射视图、 ZONE 策略等完成任务提交,平台 执行资源预检后下发请求到存储进行资源分配。

4.2.2 通过待办任务管理 进行资源发放

考虑到变更窗口的时间问题,华为 DME 支持待办任务管理,现场管理员随时提交存储资源发放、交换机资源发放任务,变更窗口到达后通过待办任务启动待办任务。相关流程如下:

管理员提交存储资源发放和交换机发放任务到待办任务,待办管理员可对待办任务执行策略设置, DME 系统按照用户定义执行资源发放任务。

4.3 维护 管理

4.3.1 告警管理

通过设置各种规则对告警进行自动屏蔽、抑制、聚合、关联,自动确认、重定义、标记状态。相关流程如下:

管理员接入存储和交换机,设置告警自动处理规则,按照告警 ID 、告警源类型、告警级别、事件分类、根因父告警 / 子告警,对上报的告警进行过滤;根据预先定义的规则对存储或交换机上报告警进行自动处理;根据上报过滤规则,对告警进行过滤,并通过 SNMP Trap 的方式上报给短信告警管理平台进行通知。

4.3.2 策略检查

管理员可定义检查条件,对配置、容量、性能、可用性进行检查,在匹配到违规条件时,产生事件。相关流程如下:

通过接入基础架构资源,采集配置数据上报到 DME 配置库,数据集清洗模块从配置库读取资源属性、维度信息、统计信息,存入历史库;定期读取历史容量数据,预测未来容量趋势。

根据存储设备 性能阈值、容量阈值、物理部件可用性、运维配置 定义策略检查,从而 发现超阈值、设备异常和违反规则的生产事件。

4.3.3 智能预测

预测引擎每日对存储池、存储设备、服务等级、主机或主机组的容量数据进行预测,查询历史 6 个月的数据,预测未来 3 个月的容量趋势。

预测引擎每日对文件系统性能数据进行预测,查询过去两周性能数据预测未来一周性能数据。

4.3.4 性能端到端关联分析

端到端性能关联分析进行性能问题的定位:分析性能页面、仪表板的性能趋势,按 I/O 路径自上而下分析性能瓶颈,根据关联事件定性性能问题的根因是否是设备上的事件而引起,通过历史性能数据及时了解存储性能状态。

4.3.5 存储 SAN 网络拓扑

华为 DME 通过端到端拓扑定位问题根因、确定问题影响范围:

以卷、主机、存储设备为入口,查看端到端关联对象:主机、启动器、交换机端口、光纤网络、交换机、存储前端端口、控制器、设备、存储池、卷,通过对象图标,查看对象详情、性能分析数据。

5 运维经验

1.梳理整合现有资产按需求纳管设备

我行现有包含华为、 EMC 、 IBM 在内多家厂商的存储设备,包含集中式存储、网络存储、分布式存储、存储光纤交换机 200 余台,运维监控管理平台 7 套,涉及到的管理服务器、代理服务器、日志服务器等 150 余台,日常人工维护报表 10 余个,针对以上资产进行分类。设备按照 SAN 存储、文件存储 、光纤交换机分类;平台按照运维和监控分类 ;报表按照统计、配置和台账流水分类。根据分类制定新建平台功能需求,异构设备方面先期进行适配和测试以达到那纳管要求,利用现有代理服务器避免资源重复申请导致浪费。

2.纳管设备资产

纳管设备后,参照现有 CMDB 系统导入配置信息,补全不能采集的存储光纤连接线标签信息、设备实际物理位置,还有一些 CMDB 不关注但是对于存储管理员非常重要的信息,例如 HBA 卡的 location 和端口号名称等。参照过去的运维习惯,将统计报表、配置报表、台账流水报表线上功能化,既可动态展示所需内容,还可以导出报表为日后文案工作提供支撑。利用标签技术从多个逻辑和维度整体规划盘阵级别、存储池类型、设备用途、服务能力等方便业务针对不同存储服务需求的资源定位。

3.配置规范管理

规范所有命名配置,如设备通用名、存储池命名、 LUN 命名、存储前端口命名 、映射视图命名、 zone 命名、 alias 命名等。这些命名规范内容要考虑数据中心代号、设备型号、集群名称、主机名 、网络拓扑等信息,从配置命名大致看出整理链路中各元素的关系,有助于整体环境的掌控和故障定位。

4.硬件故障识别主动上报量化分析

收集平台内硬件告警,根据命名规范和拓扑结构识别翻译故障说明,分析整合告警信息,减少重复无用告警影响故障判断,并通过短信平台主动上报,通过收集量化物理部件性能指标,形成指标曲线。例如通过收集 HBA 卡 SFP 光模块的光功率指标,可清晰观察到故障模块光功率曲线下滑趋势,能做到故障部件提前预更换,在故障发生前解决故障。

5.存储资源统筹管理

掌握全环境存储资源裸容量、存储池容量、重删压缩节省率,并按不同维度展示当前容量、增长率、历史趋势,根据容量趋势为扩容资源提供数据支撑。掌握存储设备 CPU 利用率、时延、 IOPS 、带宽等性能数据,设置性能阈值整体把控设备运行压力状况。

6.基于规则分配资源

根据业务类型将系统分为重要关键系统、非重要关键系统、内部管理系统、备份恢复系统、特种数据需求系统,按照系统分类建立数据服务等级,面向业务需求定位存储服务资源,运维层面只需要在相应的资源池中申请存储服务。 重要关键系统提供全闪存储服务,非重要关键系统提供混闪存储服务,内部管理系统提供 SAS 存储服务,备份恢复系统提供 SATA 存储服务或生产系统下线后的利旧设备。通过存储资源池的建立绑定计算资源集群,对待下线系统和 EOS 并行保留系统至于冷数据集群缓冲区,待后期备份完成后下线回收。

6 总结

作为传统行业的存储产业,经历过软件定义,超融合,云计算等技术的洗礼,随着人工智能技术的高速发展, AIOPS 在运维工作中将很快普及,我们的工作方式、运维方式和思维方式都会发生巨大变化,这将促使 IT 支持理念飞跃提升。 DME 存储智能化平台的建设,为提高我行 IT 基础设施的使用效率、高可用性、灵活弹性以及标准化起到了很大的作用。通过存储资源池化整合、资源规划、自动化配置、定时任务编排、端到端拓扑可视化管理实现了存储从单一围度到 “规划、建设、维护、优划”全生命周期管理,以智能运维模式大幅提升运维效率。

在我行成熟构建基础设施服务云平台的基础上,存储智能化管理平台完成资源集中化与运维自动化,从数据中心资源池组织形式以及整体架构出发,将智能管理平台接入云平台服务目录,由云平台作为统一资源入口,完善我行 IT 支撑整体规划目标。为进一步提高运维工作效率,我行还将 DME 管理平台进一步扩展到手机平台上,深化 “ 无人值守 ” 、“远程移动办公”的智能化运维建设目标。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

7

添加新评论3 条评论

#nkj2021系统架构师, 金融行业
2021-06-07 14:53
结合行内的存储管理痛点进行分析,然后给出技术解决方案,再进行运维经验总结分享,给出金融行业是一个很好的参考经验借鉴。建议可以在DME方案下适用的场景可以详细说明比较好,哪些规模的运维需要这样的一个平台。
#wanggeng系统运维工程师, 某银行
2021-06-07 10:14
本文重点了解存储智能统一管理平台的方案,可以实现“规划、建设、运维、优化”存储全生命周期自动化管理与智能运维,简化存储管理,提升数据中心运营效率。并且作者从自身的运维经验中也很好的展示出了这一方面,值得学习。
#yinzhijie系统工程师, 浦发
2021-06-07 09:08
智能化统一管理平台与自动化运维的完美结合!
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。