从运维的角度看,分布式存储设计时要考虑哪些方面?运维管理中的监控告警、备份恢复与异地容灾等应该如何规划?
收起结合流行的ceph分布式做解释:
(1)分布式存储监控: 搭建分布式存储的开源软件通常都是服务器,是以服务器自有磁盘来做存储的,所以监控可以在服务器的磁盘上设置,同时,我们同样可以用prometheus+grafana的方式进行监控,部署开源的ceph_exporter服务。
(2)备份和恢复: 分布式存储是不需要备份的,因为故障本身就在其软件设计的计划
中,比如ceph,设置2到3个mds+monitor,4~5个osd,坏了几个节点,可以从其他节点恢复。
(3)异地灾备: 比如ceph的RBD快照技术,通过差量文件的方式定期将数据备份到灾备中心,当主数据中心发生故障时,从灾备中心恢复最近的备份数据并重启相应的虚拟机,最大程度降低灾难时的数据恢复时间。