监控的问题提的非常好,我们组要加强了Brocade FOS的maps策略敏感性监控部署、主机秒级性能数据采集特别是queue的采集,存储秒级数据采集。在3Q以前,我们还会考虑frame级别分析,保证frame在传输过程中initiator和target各自发出的frame在对端响应过程中延时问题的发现,简单来说是一个ms级别的问题诊断,主要针对大量flash和大量密集计算场景下microburst、hba慢速的问题。(使用flash,建议升级HBA的firmware,保持到一个比较新的版本)
我们现在在块应用场景的flash监控已经升级为秒级别监控,传统的5分钟性能采用和1分钟性能采用已经不能满足,传统模式往往表现出存储资源无瓶颈,但IO延时的突发造成延时最大值上百倍。可能traffic更快了,分析的力度需要更强,粒度更细才能找到问题、个体、noisy neighbour等。