如何发现和解决关键的存储问题?

Ceph分为三大块,分别是对象存储、块设备存储和文件系统服务。在实际运营中,如何发现和解决关键的存储问题?尤其是随着规模的扩大与业务的几何级数的扩张,存在运维中不可预测的问题,如何提前预判和防治?

参与9

4同行回答

Daniel1111Daniel1111研发工程师平安科技
规模扩大和业务扩张需要关注存储节点资源的消耗,除了CPU、MEM、Disk io util、NIC throughout,还需要关注FD文件句柄数、进程和线程数、端口占用数等。此外慢盘、慢节点也更容易出现,需要人工处理或者实现自动化。...显示全部

规模扩大和业务扩张需要关注存储节点资源的消耗,除了CPU、MEM、Disk io util、NIC throughout,还需要关注FD文件句柄数、进程和线程数、端口占用数等。此外慢盘、慢节点也更容易出现,需要人工处理或者实现自动化。

收起
软件开发 · 2020-09-04
浏览864
宁泽阳宁泽阳系统工程师某科技公司
规模扩大和业务扩张是一个过程,在这个过程中建议加强对网络和磁盘IO这些容易出现问题的点的监控并进行历史趋势分析,从趋势中发现性能容量的瓶颈,并尽量将瓶颈提前消灭掉。显示全部

规模扩大和业务扩张是一个过程,在这个过程中建议加强对网络和磁盘IO这些容易出现问题的点的监控并进行历史趋势分析,从趋势中发现性能容量的瓶颈,并尽量将瓶颈提前消灭掉。

收起
互联网服务 · 2020-08-31
浏览846
zhuqibszhuqibs软件开发工程师Adidas
不可预知的问题,要解决岂不是先知。(1)全方位的监控是解决问题的问题的其中之一方法,thanos+Prometheus+grafana能同时监控很多kubenetes集群;(2)可靠高速的网络,大部分ceph问题都是由网络引起的,ceph性能不仅靠磁盘性能,更靠高速的网络。(3)kubenetes的自愈功能,kubenetes考虑了一部...显示全部

不可预知的问题,要解决岂不是先知。

(1)全方位的监控是解决问题的问题的其中之一方法,thanos+Prometheus+grafana能同时监控很多kubenetes集群;
(2)可靠高速的网络,大部分ceph问题都是由网络引起的,ceph性能不仅靠磁盘性能,更靠高速的网络。
(3)kubenetes的自愈功能,kubenetes考虑了一部分的自愈功能

收起
互联网服务 · 2020-08-27
浏览914
和谐之声和谐之声系统运维工程师中银保信
加强日常的巡检显示全部

加强日常的巡检

收起
互联网服务 · 2020-08-26
浏览881

提问者

15305419779zxy
主任山东大正公司
擅长领域: 云计算信创服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-08-25
  • 关注会员:5 人
  • 问题浏览:2149
  • 最近回答:2020-09-04
  • X社区推广