云平台存储分布式存储运维要注意哪些方面?与集中式有什么区别?
收起云平台分布式存储运维需要注意以下几个方面:
1、硬件
云平台分布式存储与集中式存储相比,使用的是通用服务器和组件,而非专用硬件。运维上同样需要做好监控告警,主要包括内存、RAID卡、硬盘、网卡等组件,尽早发现问题来规避可能的风险。
主流的分布式存储,通过软件定义的能力,实现了硬件的全方位监控和告警,也支持硬件亚健康诊断与隔离,例如网络亚健康、硬盘亚健康。对于运维管理员,选型分布式存储时需要关注这些功能,日常运维阶段只需要留意云平台有无异常告警即可。
2、性能
关注一定周期内存储性能负载情况,及时评估对业务的影响,关键指标包括延时、IOPS、Block Size等。
3、资源
关注存储集群的资源利用率,尤其是使用精简置备卷的场景,通过分布式存储软件提供的自定义存储利用率告警阈值,提前发现资源瓶颈。主流的分布式存储产品,还具备资源用量预测能力,使得组织有更充足时间窗口去启动扩容流程。
4、高危操作
专业的厂商在交付后都会有全面的培训,其中包括高危操作,运维管理员一定要谨慎,例如,不能在集群数据恢复期间对节点关机或调整存储网络等。