伴随着数据量与业务量的增加,所需的底层存储设备数量也在随之增加。相继而来的挑战便是设备品牌型号繁多、变更的繁琐复杂、人员能力配置、存储设备告警监控、容量汇总监控与预测以及出现问题时快速响应。这时需要一个系统工具可以解决以上问题且要求适用于多个品牌。本次我们选择了来自华为的数据管理工具DME。在一段时间的时候后发现该工具功能涉及较有针对性且贴切实际运维场景。
银行A数据中心已有较长时间,随着业务的运行与业务扩张,数据中心的数据量呈指数级增加达到了数十PB,相伴随而来的就是底层存储设备数量一直往上增涨。
存储运维管理工作中最令人头痛的问题就是容量把控,由于上层业务系统对于自身业务的数据增量与新开发的业务系统的数据量把控往往无法做到精确预算。而新的采购需要完成容量估算、项目申报、项目开标、设备测试、设备安装调试与机房基础资源与网络资源的申请。设备从开始准备采购到真正可以投入使用一般需要2-3个月的时间。因此存储运维工作者需要提前预计在每个采购周期前存储资源是否充足,存储资源的性能是否可以继续支撑。
经过了多年的技术发展后,无论是国内还是国外品牌,在存储设备类型与型号数不胜数之下,必然将面对运维人员需要同事熟悉操作与运维三个以上品牌的存储设备。这无疑增加在资源发放、告警监控、性能监控等运维场景的难度,要求运维人员与值班人员需要掌握很多不同厂商的故障查询方法与信息查询方法,需要消耗运维人员较多的学习成本,对于运维人员快速投入正式工作造成了较大的难度。
银行业务系统较多且种类千差万别,因此每个业务系统的性能指标都不一样。因此无法更好的监控每个业务系统存储资源的性能指标,无法做到在业务系统产生实际性影响前提前预知,无法及时暴露存储设备性能风险,最终造成在问题发生了才能组织分析与应急。外加上每个厂商众多,无法集中管理、查看所有存储设备的性能数据,也无法对未来的性能需求做出推测。
设备品牌与设备型号繁多带出的另一个问题便是上升了日常硬件运维难度。如果只是一两个分布式设备,即使是体量大的情况下值班人员也只是需要盯着两个运维界面即可,有什么告警可以马上获知并处理。但是设备数量多的情况下,让值班人员每个设备都打开监控界面且一直查看必然是不现实的,这样的运维方式将无法第一时间获知告警的出现并快速作出反应与排查。
将所有存储设备的存储资源统一管理,清晰的知道每个存储设备每个存储等级的容量利用率。利用长期跟踪累积下来的数据预测未来的容量需求情况,为每一次的设备采购提供可靠的判断依据。
运维人员使用同一个平台对所有存储设备进行日常运维与存储资源发放,减少新上岗运维人员的学习成本。基于同一个平台可以实现操作申请、操作追溯、操作行为审计,减少运维风险。最后基于操作日志实现部分重复工作自动化进行。
不同品牌不同型号的存储设备告警信息统一转发到平台,值班人员只需监控平台告警即可清晰知道存储设备运行状态。且在监控平台上添加对重复故障场景的常规处理方法,减轻故障运维难度,最终实现运维人员一天即可上岗。
在日常运维场景中经常遇到整个基础架构的某个环境出现了异常,进而需要确认整体影响面的情况。如当某个交换机故障了,就需要快速的确认哪些存储、主机连接了该故障交换机,存储与哪些服务器之间建立了SAN网络连接,快速确认影响范围,便于制定恢复方案。
针对以上的需求,我们需要一个工具或平台,可以为我们提供以下服务:
1、 可以作为所有存储设备的统一接口,可以通过该工具或平台完成基础的资源发放。
2、 可以作为所有存储的信息汇总,做到一目了然的看到所有存储的运行情况、资源发放情况、性能使用情况、存储硬件设备信息等。
3、 针对一些业务连续性或数据需要做保护的场景如数据复制、双活,可以通过工具或平台来完成配置、查看等功能。
4、 作为所有存储设备的告警汇总,让所有运维者可以简单的看到告警并知道如何做简单的应急处理。
5、 能完成逻辑链路的视图展示,从底层的存储设备到物理服务器的虚拟机再到所属应用的逻辑关系图。
6、 可以通过标准的协议与一些第三方应用做个对接与信息共享。
a. 主机配置:根据官方指导文档,依据现网存储设备、交换机设备与VC规模去决定应该使用单节点、三节点还是五节点进行部署。单机配置方面建议根据官方指导的32C、128G进行配置,在日常使用中CPU利用率可能会较低,但是在特定的时间点如0点的时候,DME将对所有的存储设备进行信息采集,届时计算资源利用率将会飙高。
b. 主机网络配置:共需要7个IP,5个主机静态IP,1个南向浮动IP(用于管理,用户入口),1个北向浮动IP(用于对接第三方系统)。由于网络规划较为全面,针对不同的区域有不同的权限配置,且DME需要对接较多的资源,如存储、交换机、服务器,主机IP的权限应尽可能的大,便于之后的对接。
c. 主机站点:五台主机可以将三台主机部署在生产站点,两台主机部署在同城站点,可以起到容灾作用,当然前提是站点间的时延不能过长。
DME的可用分区功能,可以将逻辑上的区域进行区分。
可用分区可以将逻辑上同一区域的存储、交换机、服务器划分为统一分区,也可以根据企业自身情况灵活配置,这样在后期资源发放、容量统计的时候就能感受到好处了。
a. 接入存储设备-华为存储设备:DME支持接管华为品牌下的存储设备与部分第三方主流设备。对接华为存储设备的时候需要通过8088、22端口进行设备接管,通过这两个端口DME可以对存储设备进行信息采集、命令下发。另外还需要通过161端口(可改)使用snmp协议与存储对接,使存储设备可以将产生的告警主动推送到DME(视SNMP协议版本决定)。DME在对接存储设备时有一个非必填项---维保开始时间与维保结束时间,小编强烈建议如果可以的话尽量将这个信息填写上,这样值班人员在运维的时候就可以很直观的知道故障的设备应该找原厂维保还是找其他厂商处理。
b. 接入存储设备-第三方存储设备:DME支持接管主流的几个品牌的主流型号存储,如EMC的VMAX、VNX、vplex,NetApp的FAS系列。对于第三方存储设备DME均无发放功能,只能获取到存储一些容量信息与告警信息,只能看,不能动。
c. 接入主机-存储主机:DME的主机分为存储主机与物理主机。存储主机可以理解为在存储设备的主机上注册了信息的主机,存储主机的信息是DME获取存储设备信息后,将存储设备里面的主机信息整理并在存储主机这一页进行展示
d. 接入主机-物理主机:物理主机则为DME直接可以访问的主机,DME通过22端口对物理主机进行访问或信息采集。VM集群的物理主通过对接vCenter即可对接上。
e. 接入交换机:DME目前支持接入的是SAN交换机,接管时需要区分思科或者博科
f. 接入vCenter:截止投稿前,官方最新版本为22.1.1,该改本在硬件条件满足情况下最高可支持15个vcenter、750个集群、1500个exi主机、5万台虚拟机。基本可以满足绝大多数场景
g. 接入备份设备、数据保护一体机、安全设备:DME的这三个功能目前只支持对接华为存储产品线的OceanProtect X、OceanProtect A、OceanCyber数据安全一体机。暂时不支持对接第三方设备,因此业界使用较多的IBM带库是不支持接入DME的
h. 对接堡垒机:能使用到DME产品的客户大概率都通过二级及以上的等保评审,那必定需要通过堡垒机接入各主机、交换机、存储设备。DME支持与堡垒机进行对接,这样在查看主机的时候就可以正常进行。
在购买了DME license后,可以直接在DME界面上对所有已接管的存储进行资源发放,主要包含SAN与NAS。细化如下:
SAN:创建主机-创建主机组-添加主机到主机组-创建LUN-创建LUN组-添加LUN到LUN组-创建映射
NAS:创建文件系统-创建共享-添加共享的客户端
如果在上面的业务规划中对独享存储设备的业务进行了正确的可用分区设置,那在创建资源的时候就能享受到带来的便利。在创建资源时可以通过可用分区去选择在哪几个存储设备上进行创建资源,运维人员不需要再先去查阅容量信息后再去分配资源
TO-DO(待办任务)是DME较为出色且实用的功能之一。上面第四点提到所有发放功能在操作的时候可以选择立即执行,也可以使用TO-DO功能,做到定时执行、任务多级审核。待办任务分别有待办任务与待办任务组,关系为一个待办任务组包含多个待办任务,且同一个待办任务组内的待办任务可以设置先后关系与依赖关系。定时执行是针对待办任务组设定的。
在很多局点都会有集中变更的管理制度,即所有变更操作需要提交审核且集中某个时间段进行。往往变更都是集中在晚上,造成了大量运维人员的加班,也进一步造成了第二天可以正常的运维人员数量较少。通过TO-DO这个功能,原来需要3个人加班处理到次日凌晨1点的变更,变成了只需要预留一个人查看DME各项待办任务执行情况即可。这样可以保证到所有变更均做好提前准备,做到变更风险提前预知、节省人力成本。
DME的数据保护功能是指对LUN或者文件系统发起远程复制、克隆、快照、双活等功能,在DME侧统一作为入口,无需单独进入存储设备管理界面进行配置。在使用上最实用的点就是对所有存储设备的数据保护功能下的信息做了汇总,类似存储设备中添加了哪台存储作为远端设备、所有存储已创建了数据保护的LUN和文件系统有哪些。有了这个信息汇总我们运维人员可以很直观地知道哪些做了数据的持续保护,哪些存储已建立了远程复制关系随时可以使用。像存储上的一致性组功能在DME上也有实现。在这里需要赞赏DME一个功能,可以同时对存储设备做的多个克隆pair同时发起分裂,在华为V3、V5存储上是无法一次性对多个克隆进行分裂,导致分裂克隆的变更就需要很大的时间成本
在DME接管了FC交换机后,DME可以对FC交换机上的zone进行汇总展示,并获取FC交换机的性能数据(获取性能数据对交换机可能会造成性能压力过大风险,建议测试好再开启使用)。同时也可以根据自定义zone策略,让DME出划分zone的脚本,由运维人员进行脚本检查与配置。划分zone有端口zone与wwn zone。
华为存储V3、V5版本在存储侧只能查看实时的性能,对于历史性能只能将性能数据收集下来解析查看,这无疑增加了分析问题的时间成本,而DME性能分析这个功能算是弥补了华为存储V3、V5型号的缺陷。由于DME会保存一年所有存储设备的历史性能,因此根据DME的官方推荐,每台DME的主机建议空间为10TB。性能分析功能可以查看的对象较为全面,存储的前端、后端、LUN、文件系统等都可以单独查看,并支持筛选出TOP的几个对象出来,加快了日常性能问题的查看。
我们认为DME整个产品最厉害的功能就是拓扑展示,该功能可以根据选择的对象,将与之关联的整个拓扑图列出来。最长的拓扑链条可以从虚拟机---虚拟机所在的物理机---虚拟机使用的存储卷---物理机对接了哪个交换机哪个端口---通过哪个交换机哪个端口去到哪个存储设备---调用了哪个存储设备的哪个端口、哪个控制器、哪个LUN。在拓扑展示功能的加持下,运维人员可以快速清晰的知道与故障有关联的整个拓扑,结合上DME与我们行的CMDB对接后,更能确定到关联主机归属哪个应用,大大的缩短了定位时间。该功能同时支持NAS的拓扑图。在其他系统知道DME可以实现该功能后都流下了羡慕的口水。
每逢重大日子如一些政治节日或者大型的电商购物节时,总能看到不少系统都对重要的系统或者数据进行展示,而DME则可以满足我们这个需求。DME大屏监控功能可以根据用户的目的自定义编排,可以从性能角度、容量角度去设置希望展示的数据。
我们需要管理的存储设备较多,每当需要做容量报告的时候就需要每台存储设备登录上去抄录当前的容量情况。而报表分析功能可以顶替了这项工作,报表分析功能可以从容量、性能等角度去自动生成报表,再结合邮件短信发送功能,可以做到定时发送编辑好的报表,每天都可以清晰知道容量的使用情况,提前做好容量估算与设备采购计划。
北向接口使用了标准的SNMP协议,可以将DME汇总到的所有的存储设备告警都发送到通过SNMP对接的第三方平台,做到整个环境的告警都汇聚一起,更便于管理。
1、 DME的异构能力在业内也是值的称赞的,兼容性高、兼容品牌多、对少部分设备能执行到获取性能数据,对大部分设备能获取到容量与告警信息。这些能力的实现个人猜测应该是通过通过维护开源社区来拥护多厂商共同维护API对接方案。 DME计划年底的版本支持第三方设备管理通过插件的形式接入DME平台上,DME保障开放性,同时可以让三方服务开发插件做对接。
2、 DME可以实现统一容量展示:不同品牌的设备容量的展示逻辑都不一样,但是仔细研究后其实都不难,只需要找到关键的点并获取该数据就可以了。剩下的就是容量数据的存储、容量的预算与展示了。简单但对于运维工作提供了实质性的帮助。
3、 DME实现统一性能展示:据了解DME目前能实现性能展示的除自家华为品牌外暂时支持NetApp少部分型号存储。但是简单想想也觉得正常,毕竟需要理清存储设备的性能数据就需要先理清存储设备的实现架构,这个工作量庞大且繁琐,价值变现也不大。
4、 DME实现统一告警:虽说存储设备品牌不一样,但是大家都支持通过统一协议SNMP进行告警展示,只需要DME支持SNMP协议即可完成与异构存储设备的告警对接。接下来就是告警的展示、处理建议、告警储存汇总了。
在实际使用DME一段时间后,能感受到DME开发团队对于用户的痛点是把握住了,DME的功能也是可以实切地解决到客户的燃眉之急,从而降低运维难度,降低人员成本以及提供效率。DME适合的是有一定体量规模的数据中心且华为存储具有一定规模的大中型企业。
本文协作专家:
李高峰 某商业银行 系统架构师
邹迅 湖南三湘银行 存储工程师
王博 哈密市商业银行 系统工程师
李先科 某城市商业银行 高级系统工程师
姜旭 某大型银行 存储工程师
本文顾问专家
范永清 厦门银行 系统架构师
王登峰 秦皇岛银行 信息科技部总经理
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞7
添加新评论5 条评论
2023-12-26 10:00
2023-12-25 19:28
2023-12-25 11:40
2023-12-25 09:40
2023-12-23 11:31