当我们在生产环境中完成 PowerHA7 的实施并交付使用,在接下来长期的运维阶段,需要定期的对 PowerHA 的健康状态进行检查,从而可以减少或预防 HA 发生异常保障其高可用功能和特性的正常启用。
那么对当前 PowerHA 环境要进行哪些方面的检查,是大家需要关注的。结合我们在日常的工作经验,接下来为大家介绍一下 PowerHA 的巡检检查项目都有哪些。
对上述检查项列表中常见的检查项说明如下:
检查项说明 :
检查 AIX 系统与 HA 的版本及补丁,并查询 IBM 发布相
应版本的 HIPPER BUG ,最终需要决定是否安装。
检查方法:
oslevel -s , 操作系统版本; halevel -s , HA 版本; instfix –i ;
检查项说明:
收集当前 CAA 的配置参数用于检查心跳间隔、节点失败检测超时等;
检查项说明:
检查每个节点上的 netmon.cf 配置是否存在其内容是否正确: !REQD ,应包括一条或多条此格式的记录,其中 owner 为本地节点上正在使用的 IP 地址, target 为目标 IP 。
检查方法:
netmon.cf 为文本文件,可直接 cat 读取;
检查项说明:
检查每个节点上的 /etc/hosts 文件内容,最近有无改动、确认关键记录是否正确、内容在在多个节点上是否是一致的。
检查方法:
/etc/hosts 为文本文件,可直接 cat 读取;
检查项说明:
检查共享卷组的自动激活属性是否关闭、卷组类型为并发;
检查方法:运行命令 lsvg vgname
检查项说明:
确认 APP 启停脚本文件的位置、权限、 owner&group 属性是正确;
检查方法: 运行命令 ls -l
检查项说明:
检查 “Current state:” 是否为 “ST_STABLE” 。 Current state: ST_STABLE
注: ST_INIT 为 HA 服务未启动;
检查方法:
运行 lssrc -ls clstrmgrES | grep state 命令;
检查项说明:检查 HA 相关服务进程是否运行;
检查方法:运行 clshowsrv –v
检查项说明:
检查 Cluster 状态: ClusterState : UP ;检查节点运行状态: Node Name : node1 State: Up ;检查 IP 心跳网状态: net_ether_01 State:Up
检查方法:运行命令 cldump
检查项说明:
检查 RG 启动、接管、返回策略配置是否为你期望的; RG 运行状态: 显示当前 RG 在哪个节点上是 Online 的;
检查方法:运行命令 clRGinfo
检查项说明: Service-IP 是否运行在 Online 节点上; ShareVG 及文件系统是否在 Online 节点上激活;
检查项说明:检查共享卷组是否已被 gslclvmd 纳管:
检查方法:运行命令 ps -ef
检查项说明:
显示当前 CAA cluster 在节点上的心跳、 NIC 、 communication device 的状态;
检查方法:
运行命令 lscluster –s 、 lscluster –m 、 lscluster –i
检查项说明:
错误日志中是否存在 PH 的硬件报错(近期或频繁出现); HA 相关的软件报错; CAA 磁盘 IO 或链路错误信息;其它可疑报错信息;
检查方法: errpt/errpt –a
检查项说明:
检查 syslog.caa 日志文件,以确认有无异常的 CAA 通信问题;
检查方法:
该日志文件为文本类型,可直接通过 cat 等命令读取。
检查项说明:
检查 cluster.log 日志文件,以确认有无异常的 HA 事件发生;检查检查方法:
该日志文件为文本类型,可直接通过 cat 等命令读取。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞4
添加新评论1 条评论
2021-05-19 16:54