zhangpeng4007
作者zhangpeng40072020-05-26 15:08
系统运维工程师, 某城市商业银行

城商行异构存储统一监控分享

字数 20870阅读 4276评论 1赞 4

谈到异构存储监控的时候,笔者头脑中会闪现出自己曾经见过、用过的十多个品牌和数十个上百中型号的企业存储系统,某一个存储厂商的所有存储产品,由于公司并购,研发部门差别,产品功能迥异,管理和维护也并不能做到整齐划一。作为一名存储维护、实施、使用管理等相关工作 12 年 + 的从业者,想谈一谈对于多品牌存储统一监控和管理的感受和使用经验的分享。

1 企业存储异构现状

多数企业努力满足其来自用户和应用的不断增长的和经营分析优化等需求,金融行业还要满足审计、风险、合规和监管部门的支付和报送业务需求,这样企业就会以不通的项目来不断增加磁盘阵列和服务器,随着时间的推移,内部存储系统独立、分散遍布数据中心,即使通过 SAN Fabric 将相关联的业务群整合起来,还是会形成数据孤岛。这时,虚拟化和云的概念引入企业的存储系统后,如何利用虚拟化和云存储模式整合现有资源,是很多数据中心面临的实际问题。后续,企业 IT 系统上云之后,低成本、高冗余、去中心化、横向扩展的高效聚合存储也逐渐承载非关键业务,向关键和核心业务,有赶超原有传统独立存储的趋势,形成现在的新老存储共存、特点各异的纷乱场面。不过我相信,无论怎样发展,所有企业都希望各个存储孤岛能够整合成为便于统一管理的整体,稳定而向上透明的提供数据服务。这样,统一存储监控和分配的需求自然而然地产生。

那么各个品牌的存储厂商为了追求高市场占有率和高回报,并不想把产品做成工业流水线上的标准件,恰恰相反,为满足客户的各种需求和应用场景,国内外存储厂商会对标友商,军备竞赛式地开发出指标和参数具有排他性,标准和概念具有先驱性的存储产品,力争成为行业的独角兽,这样就导致不同品牌的存储各异,而统一品牌不同用途的存储型号又各异,在资本和利益的驱使下,想要统一各个品牌存储产品的使用和监控并不容易。另一方面来讲,形成竞争的市场才是健康的,对企业客户也是件好事,排除决策层主观意愿和其他人为因素,如果用垄断价格和竞争价格的差额资金,去做异构存储的统一管理和监控,还是划得来的。

2 异构存储监控软件概况

异构存储集中监控软件主要通过对存储基本信息、状态信息和性能数据进行采集,经过分析和处理,通过多种告警通知途径,配以可视化的管理方式,实时通知管理维护人员;另外,采集到的数据以图表和报告的定期定时产生和通知存储管理人员、相关业务人员以及决策者,这基本上就涵盖了异构存储统一监控软件的主要需求,当然将异构存储的整合与统一分配这样存储虚拟化或 IaaS 存储资源管理的议题不在本文讨论的范围内。

金融行业传统异构存储监控平台,通常使用基于 Web 界面的监控系统 Zabbix 和分布式消息系统 Kafka ,来部署集中监控系统,常常使用 SNMP 协议传输告警信息,但对存储设备的专项信息和指标获取不完整。通过搭建异构存储统一监控平台,使整体设备运维管理监控平台,可以通过中间的存储监控系统通过 SNMP 协议联动起来,获取异构存储更深入的管理与性能指标。

2.1 软件费用——付费 / 免费

异构存储统一监控软件的开发团队主要有具备研发能力的存储厂商,掌握存储技术资源或有开发项目经验的公司组织,以及致力于异构存储监控软件科学研究的非盈利组织。因此,绝大多数软件都是付费的,收费按照所管理多品牌存储规模不同,所需功能不同而价格各异,少数免费可用的监控软件不会对客户使用过程中产生的问题负责,仅以论坛和不断迭代升级的过程中去弥补不足,现在已经在指定模块中收费,逐渐会趋于软件付费。

2.2 订制方式——成品 / 开发

企业根据自身存储品牌选择统一监控软件,或购买成品软件进行部署,或量身打造定制开发,通常情况下监控软件的部署,会从底层资源到上层业务全盘考虑,相比之下定制化方式会更符合客户众多个性化需求,有开发能力的企业会选择开源的集中监控程序(如 Zabbix 用以监控收集 +Grafana 用以展示分析)构建开源集中监控平台。

那么成品的异构存储监控软件有 IBM Spectrum Control , DELL EMC ViPR SRM , HP Storage Essentials 以及 SolarWindsStorage Resource Monitor 等其他网管软件,特此声明,上面列举先后顺序并不代表任何排名意义。

Spectrum Control 是 IBM 软件定义存储产品家族中的一员,是基于 Tivoli Storage Productivity Center ( TPC )和 Management layer of Virtual Storage Center ( VSC )技术的智能性能管理软件,具备统一管理异构存储功能,可作为简化和可视的管理工具,也能做存储分层优化,可以在逻辑卷级别跨平台实现自动存储分层,也能对接云和软件定义存储。

ViPR SRM 是 DELL EMC 公司为支持第三代软件定义数据中心开发的一款存储虚拟化管理软件,具备资源调配、自动服务、自动化和报告功能模块,直观显示、分析优化等功能,集中管理各品牌存储和物理基础架构,提供监视和报告,降低运营支出。除应用程序、数据库、操作系统和虚拟化之外,存储部分主要支持自家存储和 HITACHI 、 HP 、 IBM 和 NETAPP 的主要型号。

Storage Essentials 是 HP 公司的一款存储网络管理软件,提供端到端存储基础架构访问方式,具备容量和趋势分析控制存储成本,自动化性能监控来快速定位并隔离热点故障,并直观展现存储的仪表盘,生成全局报表,实现存储变更管理自动化。

SolarWindsStorage Resource Monitor ( SRM )是 SolarWinds 众多 网络安全管理软件产品中的一款异构存储统一监控软件, SRM 可以监测存储 IO 热点、掌握映射关系,收集 存储消耗数据并跟踪历史模式,便于容量规划、预定义报表和实时监控,官方网站提供 30 天免费试用版本。

2.3 实施、维护难度和使用灵活性

软件实施过程的复杂程度和实施后管理维护的易用性、灵活性是存储管理人员比较关系的,如果资源耗费严重,使用灵活度不高或者达不到预期的效果,甚至达不到单独使用存储设备厂商提供的管理软件的效率高,获得的信息全,那么从使用角度来看,这款软件就变得食之无味了。易用、全面、灵活、高效才会带来更好的使用体验,后面的章节我会分享到几款集中监控软件在行内的部署和使用效果,希望可以为有计划实施的同行提供些参考。

3 多品牌存储集中方式与 provider 类型

众多品牌存储系统以网络方式通过 provider 集中起来,再汇总到监控管理系统中,只是 provider 种类不同、传输协议不同。

3.1 Provider分类

Provider 分为存储内部嵌入和存储外部安装两种,多数用于监控的 Provider 程序都由厂商提供在客户需要的时候独立安装,也有存储厂商已经将 Provider 集成在存储中,在需要的时候启动程序,后续在纳管存储的过程中会举例说明。

3.2 Provider类型

Provider 按照网络传输协议不同,有采用高传输效率的 SNMP provider ,有采用 HTTP 协议的 REST provider ,有采用众多存储厂商共同参与开发的标准管理接口 SMI-S provider ,一般使用 TCP 协议端口为 5988 和 5989 ,关于 SMI-S 的详细信息可以参考全球网络存储工业协会( SNIA )的官网。

4 异构存储监控阀值设置与告警

异构存储监控软件设备告警和阀值告警分别针对存储系统和交换机的物理组件状态和存储池、逻辑卷的相关指标进行设置。存储设备和组件状态异常,会由 provider 主动收集状态信息或存储系统发送 SNMP trap 反馈状态异常,设备常见设置对象就是存储系统的控制器、缓存、磁盘、电池、电源、主机接口卡,以及 SAN 交换机的 SFP 模块、电源、风扇等;阀值告警设置通常针对存储系统的存储池已用容量、剩余容量,逻辑卷的分配情况,读写 IOPS 、吞吐量、响应时间,以及 SAN 交换机的端口协商速率、读写速率、读写 frame 数、丢帧率、校验错误率等指标进行设置。

上述两种告警都需要实时告知维护和管理人员,通过设置告警通知配置,是告警及时准确地通过微信、短信、邮件等方式传递到负责人,或直接设置出发脚本,自动化响应告警。

5 构存储监控整体报告生成与趋势分析

异构存储监控软件会将一端时间或客户需要的时间点生成指定要素的报告,通过报告中数据的多纬度分析,发现和总结趋势规律。

报告生成的要素,主要有常规要素,如存储系统名称、健康状况,固件版本,设备用途与位置等;有配置要素,如存储池组成、逻辑卷、映射关系等;还有容量要素,如各主机所需存储池总容量、分配比例和短缺比例等。要素在时间维度上的累积,加以参考值和过滤条件,就产生我们需要报告。

报告的交付不需要实时,会按调度频率定时产生或在需要时产生。报告交付格式有 HTML 、 PDF 和 CSV 等多种格式,主要以直观的图标为主。

报告的分析方向则主要通过前面各要素的组合,通过图标的表现,为企业提供多种方向的报告,有用于采购、扩容的容量趋势报告,有用于统计存储设备生命周期故障率报告,有用于存储稳定运行的固件管理报告,以及用于存储资产和机房资源消耗情况的资产报告。

6 异构存储监控分享

6.1 订制开发硬件监控管理系统

该系统针对我行的 IT 设备型号类型多,抽取使用最多的、最具代表性的部分设备纳入测试,包括小型机、 X86 服务器、存储、 SAN 交换机等,通过准确、及时地获取硬件告警信息、资产信息,实现对设备的发现与纳管,对部件变动信息的准确获取,对部件性能的参数监控,对服务器 KVM 的远程操作,并提供完整的资产信息和告警信息用于管理和维护,为日后硬件的采购提供技术参考和选型依据。

6.1.1 软件部署

软件部署由厂家工程师完成,笔者参与了存储部分的 POC 测试,由于时间非常匆忙,仅提供少量测试样机,存储提供了 IBM 与 V7000 与 DS4800 , SAN 交换机提供了 EMC DS5300B ( Brocade )

6.1.2 存储纳管

存储纳管与所有的主机设备均通过带外管理添加进监控系统,存储也通过管理端口和默认口令添加,与主机管理无异,统一在设备视图中展示。区别与主机和存储,并且实在没办法合在一起, SAN 监测的部分独立出来,配以故障列表,流量分析和链路分析。

6.1.3 监控告警

监控告警部分作为监控首要内容,放在首个位置 - 事件视图,以列表的形式展示,其中也可以看到存储系统的故障类型与故障描述。另外在测试报告中描述出可以在监控大屏中展示监控告警内容,如下所示。


6.1.4 统计报告

系统中报表统计模块中包含统计分析和故障报告两部分,分别统计不同设备、业务、时间段和故障码的趋势、排行、分布和比例等;生成的故障报告中也会提供故障的详细信息与位置,包含上述统计的内容,给出某时间段内故障总数、故障高发日期的分析结论。

整个系统测试和使用下来,对于异构存储的兼容性测试不充分,这里确实有我工作问题的主观和客观因素,但我在 POC 测试结论中也给出了比较客观的,对优点给出了充分的肯定,但最终并没有在我行实施,希望这个厂商的朋友看见以后不要介怀,我们以后也有合作的机会。优点非常明显,在事件管理、故障处理和故障周报、月报、年报等方面,提升设备管理与故障报告效率;资产管理非常细致,并与维护记录联动,方便生成故障报告,预警高发故障期等,那么作为存储管理员,能看到可改进的内容是希望将存储的资产管理与性能部分独立管理,除告警信息外,增加容量与性能监控统计,包括固件版本,存储池容量,逻辑卷、热点卷、访问带宽和 IOPS ,性能和容量短缺预测等,便于提高管理效率。

6.2 IBM Spectrum Control(简称 IBM SC )

IBM SC 软件是我行在用的异构存储监控管理软件,部署和使用时间比较久,也做过多次升级和系统迁移,由于篇幅和行内存储种类的限制,仅对现有存储和 SAN 交换机机型管理加以介绍,未介绍到的存储设备,可以参考 IBM SC 信息中心进行纳管配置。

6.2.1 软件部署

安装分为单服务器和多服务器,单服务器的所有组件安装在一起,主要由数据库和 IBM 安 SC 组件组成。数据库当然是自家的 DB2 ,装组件有包括数据服务、设备服务、告警服务、导出服务、 Web 服务、 IBM SC 图形界面、 CLI 命令行接口、存储资源代理等。笔者行内采用单服务器安装,硬件和软件配置如下: 4C CPU , 16GB 内存, 80GB 磁盘空间,操作系统 Windows Server2012R2 ,数据库 Db2 11.1 , SC 版本 5.3.1.0 ,工作版本: 20181110-2111 许可证: Advanced Edition 。

软件部署需要先安装 DB2 ,在此基础上才能安装 IBM SC 。 DB2 安装步骤前运行 db2prereqcheck 检查运行环境是否符合安装条件,详细安装过程此处省略。为避免日志将 C 盘写满,设置_DIAGPATH_ 和_SPM_LOG_PATH_指向外置存储空间,验证数据库可以建立简单的数据库进行连接和查询测试,之后再 drop 掉,并重启。

下载、解压并按提示安装 SC 软件即可,完成后验证安装及产品许可激活。

  • 验证 DB2 建立成功

C:\Users\db2admin>db2 list db directory

__系统数据库目录

__目录中的条目数 = 1

数据库 1 条目:

__数据库别名 = TPCDB

__数据库名称 = TPCDB

__本地数据库目录 = C:

__数据库发行版级别 = 10.00

__注释 =

__目录条目类型 = 间接

__目录数据库分区号 = 0

__备用服务器主机名 =

__备用服务器端口号 =
*
l 验证 TPC 数据库的表和视图是否存在

C:\Users\db2admin>db2 connect to TPCDB

__数据库连接信息

__数据库服务器 = DB2/NT64 10.5.10

SQL__授权标识 = DB2ADMIN

__本地数据库别名 = TPCDB

__

表 / 视图 模式 类型 创建时间

------------------------------- --------------- ----- --------------------------

GLOBALIZATION_LOOKUP_MASTER TPC T 2012-05-16-00.31.06.171003

MONTH_LOOKUP TPC T 2012-05-16-00.36.20.828001

PM_LOOKUP_MASTER TPC T 2015-02-16-16.28.58.486007

…….

T_XTAG_TAG_KEY TPC T 2015-02-16-16.28.54.289008

T_XTAG_TAG_RESTRICTION TPC T 2015-02-16-16.28.55.241000

T_XTAG_TAG_VALUE TPC T 2015-02-16-16.28.54.757002

WEEKDAY_LOOKUP TPC T 2012-05-16-00.36.21.234000

1029__条记录已选择。

l 验证 IBM Spectrum Control 的数据服务、设备服务、 SRA 和 web server 都已启动


l 验证所有需要的设备服务正常运行: https://localhost:9551/ITSRM/ServiceManager


l 验证登录 GUI 图形界面 ( 默认端口为 9569) : https://host_name:9569/srm

l 输入 license 激活产品, license 分为四种,在购买的电子镜像的 license\key 中。

Nodelock__: IBM Spectrum Control Standard Edition license

nodelock.SEL__: IBM Spectrum Control Standard Select Edition license

nodelock.AE__: IBM Spectrum Control Advanced Edition license

nodelock.AS__: IBM Spectrum Control Advanced Select Edition license

l 部署代理程序,笔者行内仅有单服务器本身

l 按步骤更改语言包为中文,即可使用

6.2.2 存储纳管

IBM SC 对 IBM 自家的产品当然是支持非常全面,加上一些比较熟络的存储产品和 SAN 交换机,对其上配置监控用户角色给出了明确的要求,如存储监控、探测和分配的权限表所示:

存储资源性能监控角色探测角色存储分配角色
DS6000 DS80000Monitor及更高Monitor及更高Administrator,Physical operator Logical operator
SVC Storwize v7000AdministratorMonitorAdministrator
XIVMonitor及更高任何Administrator
IBM Cloud Object Storage不支持Operator, System Administrator Super User不支持
NetApp devicesOperator及更高Operator 及更高administrator
Cisco switchesnetwork-adminnetwork-admin不支持
Hypervisors (ESX, ESXi和vCenter)不支持有访问datastore权限Administrator 或VM Power任何
Rollup servers不支持Administrator不支持

IBM SC 的存储纳管 , 可以直接添加的有: Storwize 系列( V3500, V3700, V5000, V7000 )、存储虚拟化产品 SVC/Spectrum Virtualize 和 FlashSystem 系列( FlashSystem 840 、 900 、 9100 、 A9000/R 、 V840 、 V9000 ) , 其他自家和别家的存储产品和 SAN 交换机,均以 SMI-S 方式进行添加管理,具体的 SMIS provider 由各家厂商提供,根据存储产品的 Firmware 版本联系技术支持或品牌网站下载。绝大多数存储厂商都会加入非盈利的全球网络存储工业协会,让存储产品的 SMIS Provider 进行适配测试,由中立的 SNIA 给出其 Provider 支持的功能,详细的 Provider 名称和具体的功能,可以在 SNIA 网站找到 https://www.snia.org/ctp/conforming_providers

IBM SC 通过各存储系统提供的 SMIS-Provider 下发探测、监控、数据收集等查询和命令到受管的存储系统。 Provider 中有资源调用响应部分,负责收集、校验、授权应用请求,响应应用,以及作为中转去调用相应对象和资源响应请求。 Provider 中数据存储只存放资源调用响应模块的命令和查询相关数据,常采用 flat-file 数据库,而被调用的完成主机命令或查询的库对象,在 windows 中就是多个 DLL 。安装部署、增加存储系统、验证服务状态和端口之后,就基本完成了 SMI-S Provider 的部署。后续会以 DELLEMC 、华为和 Brocade SAN 交换机的添加过程为例,介绍 Provider 部署过程和 IBM SC 存储纳管过程 , 关于虚拟化和服务器的添加纳管,参考官方网站或文档。


l 纳管 IBM DS8000/V7000/SVC/XIV

DS8000 系列的存储要求 IBM SC 版本最低在 5.3.0 以上,其中 DS8870 要求在 Firmware R7.5 (87.51.63.0) 以上,目前在用的 DS8700 版本为 R7.7.21.94 符合要求,存储端 DS8870 的 HMC 、 V7000 、 SVC 和 XIV 的管理端口,分别连接进带外管理网络后,不需要额外的配置。

IBM SC

块存储系统 - 添加存储系统 - 添加 DS8000/Storwise/SVC 或 Spectrum Virtualize/XIV 存储系统,填写相应用户名 / 口令;下一步选择 “ 启用探测器 ” ,在 “ 调度探测器 ” : 选择自动 - 每天,性能监视器 : 启用,每 10 分钟进行一次性能监视,可以根据需要和监控数据保留策略,更改调度探测器和性能监视器的频率。



l 纳管 DELL|EMC VMAX

DELLEMC VMAX存储端配置

DELLEMC 存储产品以 VMAX200/VMAX100K/VMAX40K/VMAX10K 为主,在存储设备安装的时候,就将部署带外网络的管理机,通过 SAN 网络与存储连接。 **

SMI-S Provider

在管理机安装 Solutions Enabler 软件时,要选择 SMI-S Provider 部分,安装成功之后,在此基础上封装的 ECIM 就可以对外部 client 提供服务, windows 管理机安装目录在 C:\Program Files\EMC\ECIM ,基本不需要做额外的配置。

添加存储一般在管理机 SYMCLI 中,运行命令,如下:

C:\Program Files\EMC\SYMCLI\bin\symcfg discover

C:\Program Files\EMC\SYMCLI\bin\symcfg list

详细的 VMAX 管理命令可以在笔者文章《商业银行基于 VMAX3 完成数据迁移及同城容灾技术手册》中或 SE 手册中找到。另外,单台管理机可以管理多台存储设备,当被加入监控时也是共同纳管的。

IBM SC

块存储系统 - 添加存储系统 - 添加 EMC , SMI-S 提供程序主机名或 IP 地址中填写管理机 IP 地址,默认用户密码为: admin/#1Password ,下一步正常配置调度探测器和性能监视器。


l 纳管华为 OS18500 、 OS5600

安装SMI-S Provider,建立用户,添加存储**

下载 eSDK_Enterprise_Storage_2.1.0_SMI-S_Plugin_V2.1.25_Linux.tgz ,安装软件并配置系统环境变凉后,启动 SMI-S Provider 服务,并建立默认账号密码 , 添加 OS18500 、 OS5600 和设备进管理机,虽然行内 Dorado 全闪和 OS5500v5 也可以添加进来,但由于版本问题,存储分配容量部分信息并没有收集完整。

提示:管理机用 smistool 的默认用户 / 口令为: smis_admin/Admin@12

*_------__安装 SMI-S-----------_

esdk_user/hw@12345

host:/home/eSDK/smisprovider/conf # ./start_agent.sh

/home/eSDK/smisprovider/bin /home/eSDK/smisprovider/conf

cimserver was started.

host:/home/eSDK/smisprovider/conf #

------__建立默认用户密码 ------

host:/home/eSDK/smisprovider# ./smistool

Enter UserName:smis_admin

Enter Password: <__输入管理员密码 >

login OK

smis> add user

Enter UserName:esdk_user

Enter Password:

Reenter Password:

add user success

smis> quit

host:/home/eSDK/smisprovider#

------__添加管理存储设备 ------

host:/home/eSDK/smisprovider# ./smistool

Enter UserName:smis_admin

Enter Password: <__输入管理员密码 >

login OK

smis> add device

Enter Device IP list: xx.129.1.xx<__输入 OS18500 的 IP 地址 / 列表 )

Enter Device Port:8088 <__输入华为企业存储设备的端口号 >

1 NAS Head N8K

2 Array_NexV1

3 Array NexV2/V3

4 ARRAY_HVS_SVP

5 NAS_SC_OSTOR9000

Please Select Device Type [1-5]: 3 <__当前只支持 3 Array NexV2/V3 设备类型 >

Enter Device UserName: admin <__输入华为 OS18500 管理账号 >

Enter Device Password: <__输入 OS18500 管理账号密码 >

0 Local User

1 LDAP User

4 Machine to Machine User

Please Select Scope [0,1,4]: 0<__选择用户模式 >

add device success

smis> quit

host:/home/eSDK/smisprovider #

*
OS18500和 OS5600 存储 SMIS 配置

存储出厂后出于控制器保护和功能限制等原因,部分存储的 SMIS 功能需要手动打开, OS18500 要远程或现场登录控制台 SVP ,通过 CLI 命令( show controller ip ),找到控制器的 IP 地址,或者直接点开 SVP 上 putty 程序,登入控制器 0A ,在单控制器打开 SMIS 服务即可,之后退出 developer 模式, OS5600 则直接命令行登录控制器按上述方法更改即可。

------__查看 SMIS 服务状态: Stopped-----


-------__进入 developer 模式 ------

admin:/>change user_mode current_mode user_mode=developer

developer:/>

-------__启动 SMIS---------------

developer:/>change smis status status=start

Command executed successfully.

---------__确认 SMIS 状态 ---------


IBM SC

块存储系统 - 添加存储系统 - 添加其他, SMI-S 提供程序主机名或 IP 地址中填写管理机 IP 地址,华为默认用户密码为: Esdk_user/hw@12345 ,下一步正常配置调度探测器和性能监视器。


l 纳管 Brocade SAN

正常纳管 Brocade SAN 交换机或者其他厂商 OEM 的设备都需要博科的 BNA 或替代产品如 DELLEMC 的 CMCNE ,由于中美关系和厂商发展策略, BNA 不会再向华为公司提供软件支持,客户想花钱购买都无法下单。笔者通过 DELLEMC 的低版本 CMCNE v14.4 ,安装免费自带的 SMI Agent ,这项“福利”在 v14.5 版本及以上也被修复了,需要先输入 license 后再安装使用。

安装CMCNESMI Agent

下载安装文件后,安装在与 SAN 交换机管理网可通的带外管理机上,选择 SMI Agent Only- 选择 Server IP 地址(带外网 IP )和交换机地址(选 any ),后面资源端口配置、 SMI 配置默认即可。


SAN 网络规模根据交换机端口数和 domain 数,分大中小三种规模,管理服务器的 CPU 、内存和硬盘空间需要符合要求才会继续安装,中等规模管理 5000+ 端口, 21-60 个 domain 需要管理机 4C 16GB RAM 和 80GB 磁盘空间。后面确认好配置,就启动了 SMI 和 SLP 服务。

手册上标准的并不清楚,需要运行 CMCNE 安装目录下的 Server Management Console ,打开 DiscoverFabrics-Add 来添加 SAN 交换机,输入管理地址、 admin 和口令后可进行更改和删除等操作。





设置 CIMOM 对外服务端口默认为 5989 ,告警级别在 INFO 以上,其他配置参考手册《 DELL EMC Connectrix Manager Converged Network Edition Enterprise User Guide v14.4.5 》


IBM SC端添加 SAN 交换机

网络 - 添加交换机 -Brocade 填写 CMCNE 所在管理主机名或 IP 地址, CMCNE 默认用户密码为: administrator/password ,下一步正常配置调度探测器和性能监视器。

最后存储和交换机添加好之后,可在存储器和网络部分查看管理。

6.2.3 监控告警

IBM SC 监控告警内容主要分为故障告警和性能告警两部分,故障告警在首页中可以查看到纳管设备的告警标志和问题级别,在具体设备中也标记具体故障存储和故障部件,告警级别由高至低分别为:严重、警告、信息,每种级别在管理员发现后可设置为知晓状态,修复后再取消告警标记为正常。


性能监控告警的设置服务于关键应用系统,通过设置被参测存储系统的容量指标、性能指标阀值告警通知,与故障告警一同发送给相关存储和业务管理组,掌握系统状态与性能瓶颈。定义所选存储告警配置,在常规选项中定义存储状态、探测和监视状态异常级别与通知方式;在容量告警中定义磁盘空间分配和短缺级别与通知方式;在性能部分定义性能度量参数进行阀值定义与告警。




6.2.4 统计报告


容量报告

详细收集查看存储设备的容量用途并制定容量扩充采购计划,主要创建过程建立报告名称、选择报告项类型,添加过滤条件,最终设置调度交付周期完成容量报告设置。


库存报告

通过监控存储资源的容量、 IP 配置、设备厂商、固件版本和健康状态形成各种报表,



计费报告

定期创建存储计费报告、消耗报告,并通过邮件通知使用存储的应用业务部门容量与费用消费消耗情况。



6.2.5维护管理

IBM SC 的常用操作主要有配置告警通知,设置历史记录保留时间,用户与权限管理,配置可同时添加多台设备的服务位置协议( SLP ),以及大规模 agent 的配置方法, Solaris 的 LUN provision ,为域用户设置权限, SSL 的创建、替换、 TLS 端口禁用、以及纯 IPv6 环境部署等操作,可以参考下面连接:

https://www.ibm.com/support/knowledgecenter/SS5R93_5.3.1/com.ibm.spectrum.sc.doc/fqz0_t_configuring_install.html

6.3 STOR2RRD


STOR2RRD 来自 捷克共和国的一家专门致力于开发性能监控工具的公司 XORUX ,旗下的产品除了存储性能监控工具之外,还有主机的性能监控工具 LPAR2RDD , 2020 年 2 季度推出前两者整合版本 XORMON 。我非常荣幸可以发现这家公司,并且分享软件给各位。 XORUX 会对基础架构做预测,监控并预测故障诊断,优化 IT 架构中的关键任务,将所有的物理机、虚拟化、存储设备和 SAN/LAN 网络在一张图中显示与控制,为高度虚拟化环境的性能监控和容量规划提供一个简单的解决方案,该解决方案具有从技术人员到管理层都能理解的图形用户界面,作为前端工具,可以轻松快速地识别负载异常,并在基础架构级别定位问题。不过基本的功能是免费的,包含在 DEMO 版本里面,部分高级功能(如生成专业报告等)需要购买 E nterprise Edition 版本) ,免费版本没有使用效期和临时 license ,相应也不会承担发生技术问题的负责。

6.3.1 软件部署

STOR2RRD 部署安装支持 Linux 和 UNIX 系统,安装介质提供支持 VMware 、 Hyper-V 、 Docker 的版本。所需硬件资源取决于受监视存储数量、类型和卷数量。和使用 REST API 的存储相比,使用装在 STOR2RRD 主机上的第三方 API 的存储(特别是使用 Java 的存储)自然需要更多资源。最小配置需要 2C , 10-16 GB 内存、 100 GB 磁盘空间,大概承载 20 个存储和 1000 个 SAN 端口,如果再增加 20 台存储设备,配置要 4C 、 20-26GB ,每增加 1000 个逻辑卷,会增加 5GB 的磁盘空间;每增加一个 SAN 端口,需要多 15MB 空间,以此可计算出所需系统硬件配置。

安装过程非常简单,以 RHEL6 为例:

  1. 建立用户: root 下建立 stor2rrd 用户

#useradd -c "STOR2RRD user" -m stor2rrd

  1. 下载配置 Apache

# yum install httpd

# vi /etc/httpd/conf/httpd.conf 加入下面内容

AddHandler cgi-script .sh

# DocumentRoot "/home/stor2rrd/stor2rrd/www/"

Alias /stor2rrd "/home/stor2rrd/stor2rrd/www/"

__

AllowOverride AuthConfig

Options Indexes FollowSymLinks

Require all granted

__

# CGI-BIN

ScriptAlias /stor2rrd-cgi/ "/home/stor2rrd/stor2rrd/stor2rrd-cgi/"

__

AllowOverride AuthConfig

SetHandler cgi-script

Options ExecCGI FollowSymLinks

Require all granted

__

启动 / 重启 Apache

# apachectl restart

# /opt/freeware/apache/sbin/apachectl restart

# /etc/init.d/httpd restart

# service apache2 restart

启动网页可测试 http:///stor2rrd/

  1. 安装 STOR2RRD

增加用户 stor2rrd 和 WEB 服务器用户权限

# vi /etc/security/limits.conf

@stor2rrd hard stack -1

@stor2rrd soft stack -1

@stor2rrd hard data -1

@stor2rrd soft data -1

@apache hard stack -1

@apache soft stack -1

@apache hard data -1

@apache soft data -1

增加用户 stor2rrd 和 WEB 服务器用户权限

产品安装:

# su - stor2rrd

$ tar xvf stor2rrd-2.XX.tar

$ cd stor2rrd-2.XX

$ ./install.sh

$ cd /home/stor2rrd/stor2rrd

配置参数 etc/stor2rrd.cfg

$ vi /home/stor2rrd/stor2rrd/etc/stor2rrd.cfg

STORAGE_USER=stor2rrd

WEBDIR=/home/stor2rrd/stor2rrd/www

RRDTOOL=/usr/bin/rrdtool

PERL=/usr/bin/perl

编辑 crontab

$ crontab -e

# STOR2RRD UI (just ONE entry of load.sh must be there)

5 /home/stor2rrd/stor2rrd/load.sh > /home/stor2rrd/stor2rrd/load.out 2>&1

6.3.2 存储纳管


纳管异构存储的范围涵盖了主流企业级存储,对于陆续新增的存储产品, XORUX 也在不断推出新版本,对接新型号存储,如果您所购买的某款存储没在支持列表中,可以在下载软件的中留言,写清型号鼓励他们对接。图中还标出了纳管存储的型号和对接方式,例如博科 SAN 交换机需要通过 REST API 与部署了 BNA 的服务器对接, IBM SVC 和 DS8000 分别用各自的命令行 SVC CLI 和 DSCLI 进行对接,详细的纳管对接方式,可以参考网站或者文档的详细说明。

由于 NAS (或 FILE )和虚拟带库等设备对异构存储监控软件的兼容性还是有挑战的,因此就以 NetApp AFF8060 , DELLEMC DD6300 和 Huawei 18500/Dorado 为例分享一下纳管对接过程。


l 纳管 AFF8060

NETAPP AFF8060 属于 C-MODE 存储, STOR2RRD 通过 NetApp CLI (SSH) 接口获取性能数据,并通过 API(http[s]) 获取存储配置数据。

登录存储配置 :

AFF8060 命令行执行创建 monitor 用户与访问权限:

Cmode::> security login role create -role monitor -cmddirname DEFAULT -access readonly

Cmode::> security login role create -role monitor -cmddirname set -access all

Cmode::> security login role create -role monitor -cmddirname statistics -access all

建立 stor2rrd 用户 , enable SSH, ONTAPI

__

Cmode::> security login create -username stor2rrd -role monitor -application ssh -authmethod password

Cmode::> security login create -username stor2rrd -role monitor -application ontapi -authmethod password

Cmode::> security login create -username stor2rrd -role monitor -application ssh -authmethod publickey

分配 stor2rrd 给 monitor 角色

Cmode::> security login modify stor2rrd -role monitor *

Cmode::> security login show

Authentication Acct Is-Nsswitch

User/Group Name Application Method Role Name Locked Group

---------------- ----------- --------- ---------------- ------ -----------

stor2rrd ontapi password monitor no no

stor2rrd ssh password monitor no no

stor2rrd ssh publickey monitor - no

增加 ssh key 授权

Cmode::>security login publickey create -username stor2rrd -publickey "ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQC+wwwpbBc6CGm8oE72mTcBXHlgFLYzmilugjjrQ2Q1W1DTTMdwlf4P5pZNWMrVbzcbwIK8VQGGBdHSWLJcK6gfJXpbChiRPMLQSpHJOcqm0/L7EnL1VTVZ487YL0heZ1CaGsg0clP2i5/t9aj/mQtNEUMMcTZZChcxhRehcPUrXAbk+21h831gyzsnecYka49SiRjTYEMxdy2vyq6h6bk0hwPcj0Gdpky9VjyKibCac0GH5SFTzSuhniTvoewodnYlL7mRul8d2s++cWA78oakwFX7EfJn6YIfwGcNp79UZFnfRe7dJSbDMYfGDcf87PwDo1cSNcUZZR+2+8rcyMj7

确认 ssh key 访问正常

$ ssh stor2rrd@192.168.1.1

Cmode::>

确认 web 服务正常

Cmode::> system services web show

External Web Services: true

Status: online

HTTP Protocol Port: 80

HTTPS Protocol Port: 443

HTTP Enabled: true

确认 NetApp 防火墙未阻止

Cmode::> firewall policy show -policy mgmt -instance -service http,https

Vserver Name: Cmode

Policy: mgmt

Service: http

Allowed IPs: 0.0.0.0/0

IPspace: Default

Vserver Name: Cmode

Policy: mgmt

Service: https

Allowed IPs: 0.0.0.0/0

IPspace: Default

Cmode::> net int show -vserver Cmode -lif cluster_mgmt

--> interfaces must have: Firewall Policy: mgmt

STOR2RRD配置

STOR2RRD v2.60+ 要用 stor2rrd 用户通过 UI 界面进行配置, STOR2RRD v2.50 及以下版本通过命令行进行配置。

为了不使用命令行,笔者将版本升级到最新的 v2.71 ,存储添加方式如下:

Settings 按钮 - Storages - New - Vendor:device - NetApp FAS CDOT/AFF A-series ,添加成功后会显示在存储列表中。


l 纳管 DD6300

** STOR2RRD 通过 ssh 登录到 DataDomain CLI 获取数据信息,根据设备微码版本不同,纳管要求略有不同, DataDomain firmware 在 5.5+ 和 6.x 的都可以正常支持 ( 其中 6.0.2.50+ 和 6.1.2.40+ 无法提供硬盘状态信息, 6.2 不受影响 ) ,比较新的 7.x+ 要求 STOR2RRD 在 v2.70 以上。

存储端配置:

创建 stor2rrd 用户赋予 user 角色;

使用 stor2rrd 用户登录 DD6300 CLI ,增加 ssh key 授权:

ssh -l stor2rrd

stor2rrd@data_domain_host> adminaccess add ssh-keys

Enter the key and then press Control-D, or press Control-C to cancel.

输入 STOR2RRD 服务器中 .ssh/id_rsa.pub 中的 ssh-rsa key ,并测试

STOR2RRD服务器配置:

命令行测试 ssh 授权成功

$ ssh -l stor2rrd

EMC Data Domain Virtual Edition

Welcome to Data Domain OS 6.1.0.11-571028

Settings 按钮 - Storages - New - Vendor:device - Dell EMC DataDomain


l 纳管 OS18500/DORADO

华为** OceanStor V3/V5 和 Dorado V3/V6 及后续存储产品 STOR2RRD 均支持,通过存储提供的 REST API 接口获取所有必要数据,无法通过 REST API 接口提供性能数据的之前型号的存储不会支持,另外 OS 9000 V5 Scale-Out NAS 也不支持,存储微码要求在 V300R003C10 以上。

存储配置:

建立 stor2rrd 只读用户,激活用户需要以 stor2rrd 登录,并修改口令;

确认打开性能监控开关,并将历史收集设置为 300 秒,配置路径如下:

新版微码:监控 -System Reporter- 系统 - 系统配置 - 注册与配置 - 点击存储 - 配置采集策略

旧版微码:监控 - 性能监控 - 实时 - 设置参数 - 启用状态下先禁用 , 再更改参数



STOR2RRD配置:

Settings 按钮 - Storages - New - Vendor:device - Huawei OceanStor/Dorado



存储纳管之后,在存储列表中可查看,编辑复制配置或测试连通性,另外可监控的性能参数可在左侧菜单栏浏览,指标非常全面,异构存储的个性化指标可以充分展现,我们按照业务关键程度和存储性能特点,将存储的关键指标重点显示在整体的 Dashboard 上从整体上重点关注。在左侧 Total 、容量、热点和存储配置选项中,对纳管存储 Pool/Volume/Hosts 的 IO 、吞吐、响应情况,以及 SAN 的数据量、 Frame 、 BB credits 和报错可以通过图形界面的进行实时监控,统计排名及突出分析,便于存储管理员针对关键业务系统和关键存储及 SAN 进行性能掌控,对配置和微码版本等基础信息可以查看与导出。配置好之后的功能可以通过 demo 网址体验: https://demo.stor2rrd.com/?menu=ea7021f&tab=undefined


6.3.3 监控告警

存储健康状态集中查看,除了主动查询左侧的整体健康状态和各存储的健康状态,还可以在设置 - 告警配置中查看告警日志。


告警日志左侧是性能告警,右侧是硬件告警。通过配置完成关键指标的性能参数上限设置,如果超出限制会显示在性能告警日志中,完成规定的邮件通知和脚本动作。

6.3.4 统计报告

STOR2RRD 的报告中包含 Reporter ,包含报告生成器、历史报告、逻辑卷 TOP 排名、主机 TOP 排名、 Mapping 映射,用于从不通维度统计和报告,并通知相关管理人员进行统计分析、管理调优、扩容与下线等管理工作。

l Reporter报告生成器

定义定时产生性能报告规则、性能统计内容,在组中,定义需要报告的组,在选项中定义 CSV 的间隔符,在历史中查看过往报告记录

l 历史报告

历史报告针对单个设备的过去时间段的某些指标进行历史查看,免费版本无法生成报告,可在企业版本使用。这么做当然与直接登录存储,阶段性报告出来效果是一样的,优点就是在于统一管理,报告内容和形式统一,便于将数据集中导出分析和展示。

l 逻辑卷 Top 排名

报告中 Volumes TOP 会按需统计制定时间段平均 / 峰值访问量最高逻辑卷的排名,并给出卷的相关信息,如所在存储、 Pool 、卷容量、访问主机、 IOPS 、带宽、响应时间、 chche 命中,便于整体掌控各存储访问高峰情况,给出进一步调优建议和存储性能提升计划。定期报告发送给负责存储资源、基础设施部门领导及相关成员。

l 主机 Top 排名

报告从主机维度,统计访问各存储的 Volumes 上述详细信息,整体掌控各主机承载应用系统数据访问规律,长期观测能够知晓业务系统生命周期规律,指定存储分配和回收计划。定期报告发送应用部门领导和各组员。

l Mapping映射

这里的 Mapping 映射,当然就是可以集中查看所有存储的主机、存储和逻辑卷的对应关系,便于统一查看统计,存储数量越多,集中映射关系的优势就越明显。

6.3.5 维护升级

STOR2RRD 的维护工作和已知故障都可以通过文档和官网进行查看,相关的维护和操作记录保存在 log 中,版本升级也非常简单,管理页面找到产品升级之后,选择好新版本升级包一键上传升级,刷新页面即可。

7 异构存储监控小结

不同品牌的企业存储和众多的分布式云存储的集中监控、管理维护、报表报告是所有金融、非金融行业客户都要面对的实际问题,响应维护及时、控制业务和管理成本、报告详尽充分也是相关业务人员和运行维护管理员的工作目标,众多品牌的存储系统在整个数据中心处于基础层,起到提供数据资源供给作用,在不断变化和发展的 IT 架构中,无论是传统 IT 架构中承载具体的业务数据,还是在全新的云架构中的 IaaS 层提供 Scale-Out 的存储资源,都尽量做到“知己知彼”。知己是管理和维护好手上的各品牌传统存储和分布式存储资源,分层次、按其特点发挥各存储其自身优势,摸清我们的“牌”;知彼是了解存储承载的业务系统业务类型,业务间的逻辑关系,数据访问方式,数据存量与增速,知晓应用系统能否恰当地分布在我们手中的存储资源中,打好我们的“牌 ” 。知己知彼之后,就要让各品牌的异构存储系统取“长”补“短”,输出存储系统集中管理的价值,让应用系统和业务部门,时刻掌握存储资源消耗情况,让决策层拿到最直接和全面的数据分布和发展趋势,做出更加智慧的战略资源部署。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论1 条评论

Amol1984Amol1984系统工程师, YuSYS
2020-06-19 10:01
IT基础设施随着原厂产品线的更新换代,使用方也会跟着换,招标采购过程中也会有各种选择,最终如作者所说,会出现应用场景中的各种异构存储并存的现象。那么我想,如果是从管理角度,是忽略存储产品个体差异与内聚,采用类似NBU管理平台软件有个统一标准化的管理协议松耦合。如果从技术角度,每家产品可能都有其需要拿出亮点卖点,比如数据重删、多份备份、性能测试参数,基本上什么价位有什么样的产品。既然是产品那么我想应是完善,具备解决方案应对这种集中管理场景的,哪怕标准协议不通,自定义协议装个插件agent啥的.以上拙见,权当抛砖引玉!
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广