如何对存储做更深度的监控优化来赋能我们快速的故障定位?

现有的存储监控都是基于物理硬件以及链路层的监控,如何对存储做更深度的监控优化来赋能我们快速的故障定位?显示全部

现有的存储监控都是基于物理硬件以及链路层的监控,如何对存储做更深度的监控优化来赋能我们快速的故障定位?

收起
参与21

查看其它 6 个回答董祁的回答

董祁董祁  产品总监 , 博雅云计算科技(北京)有限公司

我不太了解您说的深度是什么意思,那就从我的经验出发说说我的想法:
1)我猜测您现有的监控还是依赖设备自身的控制台和报警能力,这已经很具有深度了。毕竟存储厂商的内部检测机制是能否发现无论是硬件还是软件层面的异常的。设备厂商在监控层面唯独做不好或做不到的有两种:系统级故障和亚健康故障。
2)系统级故障:顾名思义不是单点的问题,而是涉及设备、网络和软件的系统级故障。以性能故障居多,常出现在结构复杂、IO延迟要求高的应用场景,例如SAN网络、存储双活系统、两地三中心灾备系统等。要解决这类问题,靠单个厂商的监控能力是不行的,毕竟面临的是多厂商异构的存储环境。要想解决,就需要有专业系统在更高的维度上建立全局管理视图,首先自动识别复杂网络架构,建立端到端拓扑模型,其次对关键位置的关键指标做7x24x365级别的数据采集,针对特定的场景,例如多路径负载、级联链路峰值、端口抖动光衰、盘阵前端拥塞、RAID或池热点、慢速盘等设定阈值,做门限的实时监控。发现故障时,结合端到端拓扑和历史性能数据,就能实现准确的故障定位。
3)亚健康故障:之所谓亚健康就是将坏不坏的状态,没有触发告警机制或仅仅是低级别告警,靠巡检是无法直接发现的,但是对IO的响应造成了影响,常出现在网络侧,例如端口光衰抖动等。发现此类问题同样需要在端到端拓扑模型和历史性能数据的支持,就是需要对亚健康的场景做预警,提前发现,准确定位,及时响应。

软件开发 · 2022-08-31
浏览977

回答者

董祁
产品总监博雅云计算科技(北京)有限公司
擅长领域: 存储iaas虚拟化

董祁 最近回答过的问题

回答状态

  • 发布时间:2022-08-31
  • 关注会员:8 人
  • 回答浏览:977
  • X社区推广