zhaobingchao
作者zhaobingchao·2020-08-17 17:11
AIX技术支持·IPS

PowerHA7.2健康检查建议

字数 2180阅读 3673评论 1赞 4

前言

当我们在生产环境中完成 PowerHA7 的实施并交付使用,在接下来长期的运维阶段,需要定期的对 PowerHA 的健康状态进行检查,从而可以减少或预防 HA 发生异常保障其高可用功能和特性的正常启用。

那么对当前 PowerHA 环境要进行哪些方面的检查,是大家需要关注的。结合我们在日常的工作经验,接下来为大家介绍一下 PowerHA 的巡检检查项目都有哪些。

检查项目

配置与信息收集

  • AIX 及 HA 版本检查;
  • CAA 配置参数;
  • Netmon.cf 配置文件检查;
  • /etc/hosts 文件检查;
  • /etc/cluster/rhosts 配置文件检查;
  • 光纤卡及共享存储盘参数检查;
  • 磁盘链路状态检查;
  • 共享卷组( VG )属性检查;
  • 共享卷组内文件系统属性检查;
  • APP 启停脚本文件检查;
  • LPM 策略配置检查( PowerVM 环境);
  • Cluster 的配置同步状态检查;

HA&CAA 状态检查

  • clstrmgrES 核心进程状态;
  • HA&CAA 重要服务进程状态;
  • HA 组服务运行状态;
  • HA 全局运行状态检查;
  • 资源组配置及状态检查;
  • 资源状态检查;
  • gsclvmd 服务进程状态;
  • 共享 VG 同步状态检查;
  • CAA 状态;
  • Errorlog 检查;
  • CAA 日志检查;
  • cluster.log 日志检查;
  • lstrmgr.debug 日志的检查;

对上述检查项列表中常见的检查项说明如下:

  1. AIX 及 HA 版本检查;

检查项说明

检查 AIX 系统与 HA 的版本及补丁,并查询 IBM 发布相

应版本的 HIPPER BUG ,最终需要决定是否安装。

检查方法:

oslevel -s , 操作系统版本; halevel -s , HA 版本; instfix –i ;

  1. CAA 配置参数

检查项说明:

收集当前 CAA 的配置参数用于检查心跳间隔、节点失败检测超时等;

  1. Netmon.cf 配置文件检查

检查项说明:

检查每个节点上的 netmon.cf 配置是否存在其内容是否正确: !REQD ,应包括一条或多条此格式的记录,其中 owner 为本地节点上正在使用的 IP 地址, target 为目标 IP 。

检查方法:

netmon.cf 为文本文件,可直接 cat 读取;

  1. hosts 配置文件检查

检查项说明:

检查每个节点上的 /etc/hosts 文件内容,最近有无改动、确认关键记录是否正确、内容在在多个节点上是否是一致的。

检查方法:

/etc/hosts 为文本文件,可直接 cat 读取;

  1. 共享卷组( VG )属性检查;

检查项说明:

检查共享卷组的自动激活属性是否关闭、卷组类型为并发;

检查方法:运行命令 lsvg vgname

  1. APP 启停脚本文件检查;

检查项说明:

确认 APP 启停脚本文件的位置、权限、 owner&group 属性是正确;

检查方法: 运行命令 ls -l

  1. clstrmgrES 核心进程状态

检查项说明:

检查 “Current state:” 是否为 “ST_STABLE” 。 Current state: ST_STABLE

注: ST_INIT 为 HA 服务未启动;

检查方法:

运行 lssrc -ls clstrmgrES | grep state 命令;

  1. HA&CAA 重要服务进程状态

检查项说明:检查 HA 相关服务进程是否运行;

检查方法:运行 clshowsrv –v

  1. HA 全局运行状态检查

检查项说明:

检查 Cluster 状态: ClusterState : UP ;检查节点运行状态: Node Name : node1 State: Up ;检查 IP 心跳网状态: net_ether_01 State:Up

检查方法:运行命令 cldump

  1. 资源组配置及状态检查

检查项说明:

检查 RG 启动、接管、返回策略配置是否为你期望的; RG 运行状态: 显示当前 RG 在哪个节点上是 Online 的;

检查方法:运行命令 clRGinfo

  1. 资源状态检查;

检查项说明: Service-IP 是否运行在 Online 节点上; ShareVG 及文件系统是否在 Online 节点上激活;

  1. gsclvmd 服务进程状态

检查项说明:检查共享卷组是否已被 gslclvmd 纳管:

检查方法:运行命令 ps -ef

  1. CAA 当前运行状态检查

检查项说明:

显示当前 CAA cluster 在节点上的心跳、 NIC 、 communication device 的状态;

检查方法:

运行命令 lscluster –s 、 lscluster –m 、 lscluster –i

  1. Errorlog 检查

检查项说明:

错误日志中是否存在 PH 的硬件报错(近期或频繁出现); HA 相关的软件报错; CAA 磁盘 IO 或链路错误信息;其它可疑报错信息;

检查方法: errpt/errpt –a

  1. CAA 日志检查

检查项说明:

检查 syslog.caa 日志文件,以确认有无异常的 CAA 通信问题;

检查方法:

该日志文件为文本类型,可直接通过 cat 等命令读取。

  1. cluster.log 日志检查

检查项说明:

检查 cluster.log 日志文件,以确认有无异常的 HA 事件发生;检查检查方法:

该日志文件为文本类型,可直接通过 cat 等命令读取。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论1 条评论

山里人山里人售后技术支持福州蓝新计算机
2021-05-19 16:54
感谢分享,非常实用。
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广