上层应用对文件系统的依赖比较高,一旦文件系统挂掉,应用将宕机。因此,对GPFS的运行指标的监控是对文件系统问题防控、问题原因排查非常有用的方式。
但是采用目前命令行排查的方式,对操作人员的要求至少要能达到非常熟悉GPFS文件系统命令、架构,而且远程技术支持收取的日志文件往往很大(>10G),传输时间久,使得排查效率不高。
如果能直接让负责监控的操作员可以随时看到关键参数,从而及时预警,可以避免问题发生或者提前降低问题严重性。针对这样的需求,有如下问题:
1. GPFS是否有现成的功能?或者留有现成的接口,可与监控平台集成?
2. 如果已有已经落地的案例,是否可以分享?