三步走,采数建模和分析。
1)采数:容易理解,通过存储设备的管理接口,持续的,周期性(分析性能瓶颈的话周期最少5分钟)的采集各类指标数据。注意的是对于一些关键指标,例如存储上的IOPS、延迟,光交上的吞吐、丢包、光功率等都要采集到。
2)建模:看您那是什么类型的存储了,SAN、集中式NAS还是分布式,不同类型分析模型不一样。以最复杂的SAN为例,要建立从服务器到存储的端到端分析模型。一般情况下,不同架构下存储性能瓶颈大概率会出现在特定位置,例如存储池、前端口、级联端口、复制链路等,单独看一个位置是不够的,要结合看。
3)分析:有了数据和模型,分析就容易了,算法啥的都不是最重要的,有经验的运维人员基本都能看出问题了。需要说明的是分析一定要结合业务场景看。
还有一点就是需要好的工具平台,能够自动完成上述工作。可惜开源的工具很少,您可以去www.bycctec.com看看。
收起