我行从 2013 年起,启动了虚拟化改造工作,提高了硬件的使用效率、降低机房空间、节约用电成本。 2015 年,我行将大部分的 IT 资源池化,进行统一的运营,统一的运维。基于性能与成本的考虑,在不同群集中选择使用集中式存储、网络存储或分布式存储。 17 年我们建成了业内首个云网联动的金融云平台。 2018 年着重于多元化软件定义的探索, 2019 年,开始重塑云服务理念,增加了大数据、容器、数据库、安全等 9 类 40 多项云服务。
实施科技创新驱动一直是我行长期发展战略,云计算在我行大行其道使得前端用户诉求响应更及时、更灵活、更弹性。云计算基础设施特性取代了小型机、高性能集中存储设备,随之而来的是擢发难数的 PC 服务器、中低端存储设备和庞杂的 SAN 网络。在我行云架构规划体系下,存储系统作为数据的直接容器、 IT 支撑的重要地基,其可靠性、稳定性、先进性、可扩展性、开放性和标准化决定了应用服务和业务数据安全、稳定、高效、灵活。如此庞大的 IT 支撑挑战着我行的运维能力。
存储管理主要面临的问题 :
为解决上述痛点,在认识到运维平台统一、智能、开放的重要性并结合我行运维工作实际情况之后,我行引入了华为 DME 存储智能管理平台。
华为 DME 通过统一的管理界面、开放的 API 、云上联动的 AI 使能、多维度智能风险预测与智能调优,实现“规划、建设、运维、优化”存储全生命周期自动化管理与智能运维,简化存储管理,提升数据中心运营效率。
DME 三节点部署场景下,通过浮动 IP 地址对外提供服务。
DME 需要接入存储、 FC 交换机以及主机完成存储资源分配的自动化以及存储智能运维,所以需要保证 DME 和基础设施(存储、 FC 交换机、主机)管理网络的连通性。 DME 通过独立管理服务网络登录主机系统,与生产业务网络完全物理隔离,不会因平台对设备日常数据采集的网络开销影响生产业务网络环境。
注:纳管设备账户密码按照我行用户口令管理细则,针对密码有效期、密码复杂度、密码历史、最小长度等规则设置,定期按要求对平台纳管设备进行口令更新。
“ 建设 ” 阶段包含了存储资源的自动化分配、 FC 交换机的自动化分配,重点通过自定义的方式实现 SAN 存储的自动资源发放。
华为 DME 块存储资源基于管理员自定义的辅助式自动资源发放流程如图所示:
通过选择存储设备、存储池、设置 LUN 的基础信息、 LUN 参数、映射视图、 ZONE 策略等完成任务提交,平台 执行资源预检后下发请求到存储进行资源分配。
考虑到变更窗口的时间问题,华为 DME 支持待办任务管理,现场管理员随时提交存储资源发放、交换机资源发放任务,变更窗口到达后通过待办任务启动待办任务。相关流程如下:
管理员提交存储资源发放和交换机发放任务到待办任务,待办管理员可对待办任务执行策略设置, DME 系统按照用户定义执行资源发放任务。
通过设置各种规则对告警进行自动屏蔽、抑制、聚合、关联,自动确认、重定义、标记状态。相关流程如下:
管理员接入存储和交换机,设置告警自动处理规则,按照告警 ID 、告警源类型、告警级别、事件分类、根因父告警 / 子告警,对上报的告警进行过滤;根据预先定义的规则对存储或交换机上报告警进行自动处理;根据上报过滤规则,对告警进行过滤,并通过 SNMP Trap 的方式上报给短信告警管理平台进行通知。
管理员可定义检查条件,对配置、容量、性能、可用性进行检查,在匹配到违规条件时,产生事件。相关流程如下:
通过接入基础架构资源,采集配置数据上报到 DME 配置库,数据集清洗模块从配置库读取资源属性、维度信息、统计信息,存入历史库;定期读取历史容量数据,预测未来容量趋势。
根据存储设备 性能阈值、容量阈值、物理部件可用性、运维配置 定义策略检查,从而 发现超阈值、设备异常和违反规则的生产事件。
预测引擎每日对存储池、存储设备、服务等级、主机或主机组的容量数据进行预测,查询历史 6 个月的数据,预测未来 3 个月的容量趋势。
预测引擎每日对文件系统性能数据进行预测,查询过去两周性能数据预测未来一周性能数据。
端到端性能关联分析进行性能问题的定位:分析性能页面、仪表板的性能趋势,按 I/O 路径自上而下分析性能瓶颈,根据关联事件定性性能问题的根因是否是设备上的事件而引起,通过历史性能数据及时了解存储性能状态。
华为 DME 通过端到端拓扑定位问题根因、确定问题影响范围:
以卷、主机、存储设备为入口,查看端到端关联对象:主机、启动器、交换机端口、光纤网络、交换机、存储前端端口、控制器、设备、存储池、卷,通过对象图标,查看对象详情、性能分析数据。
1.梳理整合现有资产按需求纳管设备
我行现有包含华为、 EMC 、 IBM 在内多家厂商的存储设备,包含集中式存储、网络存储、分布式存储、存储光纤交换机 200 余台,运维监控管理平台 7 套,涉及到的管理服务器、代理服务器、日志服务器等 150 余台,日常人工维护报表 10 余个,针对以上资产进行分类。设备按照 SAN 存储、文件存储 、光纤交换机分类;平台按照运维和监控分类 ;报表按照统计、配置和台账流水分类。根据分类制定新建平台功能需求,异构设备方面先期进行适配和测试以达到那纳管要求,利用现有代理服务器避免资源重复申请导致浪费。
2.纳管设备资产
纳管设备后,参照现有 CMDB 系统导入配置信息,补全不能采集的存储光纤连接线标签信息、设备实际物理位置,还有一些 CMDB 不关注但是对于存储管理员非常重要的信息,例如 HBA 卡的 location 和端口号名称等。参照过去的运维习惯,将统计报表、配置报表、台账流水报表线上功能化,既可动态展示所需内容,还可以导出报表为日后文案工作提供支撑。利用标签技术从多个逻辑和维度整体规划盘阵级别、存储池类型、设备用途、服务能力等方便业务针对不同存储服务需求的资源定位。
3.配置规范管理
规范所有命名配置,如设备通用名、存储池命名、 LUN 命名、存储前端口命名 、映射视图命名、 zone 命名、 alias 命名等。这些命名规范内容要考虑数据中心代号、设备型号、集群名称、主机名 、网络拓扑等信息,从配置命名大致看出整理链路中各元素的关系,有助于整体环境的掌控和故障定位。
4.硬件故障识别主动上报量化分析
收集平台内硬件告警,根据命名规范和拓扑结构识别翻译故障说明,分析整合告警信息,减少重复无用告警影响故障判断,并通过短信平台主动上报,通过收集量化物理部件性能指标,形成指标曲线。例如通过收集 HBA 卡 SFP 光模块的光功率指标,可清晰观察到故障模块光功率曲线下滑趋势,能做到故障部件提前预更换,在故障发生前解决故障。
5.存储资源统筹管理
掌握全环境存储资源裸容量、存储池容量、重删压缩节省率,并按不同维度展示当前容量、增长率、历史趋势,根据容量趋势为扩容资源提供数据支撑。掌握存储设备 CPU 利用率、时延、 IOPS 、带宽等性能数据,设置性能阈值整体把控设备运行压力状况。
6.基于规则分配资源
根据业务类型将系统分为重要关键系统、非重要关键系统、内部管理系统、备份恢复系统、特种数据需求系统,按照系统分类建立数据服务等级,面向业务需求定位存储服务资源,运维层面只需要在相应的资源池中申请存储服务。 重要关键系统提供全闪存储服务,非重要关键系统提供混闪存储服务,内部管理系统提供 SAS 存储服务,备份恢复系统提供 SATA 存储服务或生产系统下线后的利旧设备。通过存储资源池的建立绑定计算资源集群,对待下线系统和 EOS 并行保留系统至于冷数据集群缓冲区,待后期备份完成后下线回收。
作为传统行业的存储产业,经历过软件定义,超融合,云计算等技术的洗礼,随着人工智能技术的高速发展, AIOPS 在运维工作中将很快普及,我们的工作方式、运维方式和思维方式都会发生巨大变化,这将促使 IT 支持理念飞跃提升。 DME 存储智能化平台的建设,为提高我行 IT 基础设施的使用效率、高可用性、灵活弹性以及标准化起到了很大的作用。通过存储资源池化整合、资源规划、自动化配置、定时任务编排、端到端拓扑可视化管理实现了存储从单一围度到 “规划、建设、维护、优划”全生命周期管理,以智能运维模式大幅提升运维效率。
在我行成熟构建基础设施服务云平台的基础上,存储智能化管理平台完成资源集中化与运维自动化,从数据中心资源池组织形式以及整体架构出发,将智能管理平台接入云平台服务目录,由云平台作为统一资源入口,完善我行 IT 支撑整体规划目标。为进一步提高运维工作效率,我行还将 DME 管理平台进一步扩展到手机平台上,深化 “ 无人值守 ” 、“远程移动办公”的智能化运维建设目标。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞8
添加新评论3 条评论
2021-06-07 14:53
2021-06-07 10:14
2021-06-07 09:08