如何对存储做更深度的监控优化来赋能我们快速的故障定位?

现有的存储监控都是基于物理硬件以及链路层的监控,如何对存储做更深度的监控优化来赋能我们快速的故障定位?

参与21

7同行回答

starliu87starliu87  售前顾问 , XSKY
存储主要服务于业务,如果已经定位到存储故障问题,最快途径肯定是通过厂商解决问题。但随着客户对存储监控的需求越来越高,可以从业务端做全链路跟踪,围绕业务从应用-操作系统-存储做个按业务拓扑的监控,存储端的监控更多的是通过SNMP去做,不同厂家监控的粒度也不太一样,如果厂家...显示全部

存储主要服务于业务,如果已经定位到存储故障问题,最快途径肯定是通过厂商解决问题。

但随着客户对存储监控的需求越来越高,可以从业务端做全链路跟踪,围绕业务从应用-操作系统-存储做个按业务拓扑的监控,存储端的监控更多的是通过SNMP去做,不同厂家监控的粒度也不太一样,如果厂家能提供API对接,可以做更细粒度的监控。

可视化也是监控快速故障定位的一种方式,例如Zabbix以其强大的功能和高可扩展性广受企业客户欢迎。通过监控模板, 存储提供灵活的REST API、Prometheus和Elastic Seach等多种标准接口,可与市场上绝大多数第三方应用无缝集成对接。 利用预定义的“发现规则”可动态识别各种存储资源,如服务器、硬盘、存储池、块存储卷、对象存储桶和文件夹等,在存储中进行的各种资源创建、修改和删除操作,可以自动同步到Zabbix平台中。

收起
软件开发 · 2022-09-19
浏览925
Dream漂移Dream漂移  系统运维工程师 , 月卿云客
路过学习了显示全部

路过学习了

收起
系统集成 · 2022-09-14
浏览879
如果原来监控链路的断和不断,现在可以看链路光衰,设阈值,看一些相关的告警log,不知这样理解您的问题对不对。显示全部

如果原来监控链路的断和不断,现在可以看链路光衰,设阈值,看一些相关的告警log,不知这样理解您的问题对不对。

收起
IT咨询服务 · 2022-08-31
浏览980
董祁董祁  产品总监 , 博雅云计算科技(北京)有限公司
我不太了解您说的深度是什么意思,那就从我的经验出发说说我的想法:1)我猜测您现有的监控还是依赖设备自身的控制台和报警能力,这已经很具有深度了。毕竟存储厂商的内部检测机制是能否发现无论是硬件还是软件层面的异常的。设备厂商在监控层面唯独做不好或做不到的有两种:系统...显示全部

我不太了解您说的深度是什么意思,那就从我的经验出发说说我的想法:
1)我猜测您现有的监控还是依赖设备自身的控制台和报警能力,这已经很具有深度了。毕竟存储厂商的内部检测机制是能否发现无论是硬件还是软件层面的异常的。设备厂商在监控层面唯独做不好或做不到的有两种:系统级故障和亚健康故障。
2)系统级故障:顾名思义不是单点的问题,而是涉及设备、网络和软件的系统级故障。以性能故障居多,常出现在结构复杂、IO延迟要求高的应用场景,例如SAN网络、存储双活系统、两地三中心灾备系统等。要解决这类问题,靠单个厂商的监控能力是不行的,毕竟面临的是多厂商异构的存储环境。要想解决,就需要有专业系统在更高的维度上建立全局管理视图,首先自动识别复杂网络架构,建立端到端拓扑模型,其次对关键位置的关键指标做7x24x365级别的数据采集,针对特定的场景,例如多路径负载、级联链路峰值、端口抖动光衰、盘阵前端拥塞、RAID或池热点、慢速盘等设定阈值,做门限的实时监控。发现故障时,结合端到端拓扑和历史性能数据,就能实现准确的故障定位。
3)亚健康故障:之所谓亚健康就是将坏不坏的状态,没有触发告警机制或仅仅是低级别告警,靠巡检是无法直接发现的,但是对IO的响应造成了影响,常出现在网络侧,例如端口光衰抖动等。发现此类问题同样需要在端到端拓扑模型和历史性能数据的支持,就是需要对亚健康的场景做预警,提前发现,准确定位,及时响应。

收起
软件开发 · 2022-08-31
浏览976
匿名用户匿名用户
现阶段的链路等监控目前满足日常工作,更深度的监控和优化个人感觉交给厂商去做更合适,出现性能问题首先要应急处理,尤其存储的性能问题影响范围巨大,必须优先处理,留下日志,事后排错分析。...显示全部

现阶段的链路等监控目前满足日常工作,更深度的监控和优化个人感觉交给厂商去做更合适,出现性能问题首先要应急处理,尤其存储的性能问题影响范围巨大,必须优先处理,留下日志,事后排错分析。

收起
基金 · 2022-08-30
浏览969
murenxiangmurenxiang  技术经理 , 宏源证券
如果核心系统存储故障,我们的优先是处理故障 还是按照核心系统的RPO、RTO  进行切换呢?根据监管要求,肯定是 先切换 保障核心业务连续性。存储的监控 首要是为了第一时间发现问题,其次才是定位故障。...显示全部

如果核心系统存储故障,我们的优先是处理故障 还是按照核心系统的RPO、RTO  进行切换呢?
根据监管要求,肯定是 先切换 保障核心业务连续性。

存储的监控 首要是为了第一时间发现问题,其次才是定位故障。

收起
证券 · 2022-08-30
浏览1049
  • 故于故障定位,除了原厂监控工具,建议使用综合监控工具,可以把主机、数据库、存储等统一监控。把数据库表空间在主机层面、存储层面的对应关系 横向打通,例如当存储磁盘故障 可以快速判定影响那个数据库那个表空间 及相关业务
    2022-08-31
首先,传统的存储硬件故障告警是必要的,没有必要重复发明轮子,即使再次发明,还是要参考原装的轮子然后,要用自己习惯的工具,不限于商用还是开源。用的好,顺手,才能有后续的深入最后,如果自己能做一点小工具。满足日常监控和告警,就比较理想。不要一开始就想让一个系统满足所有的要求...显示全部

首先,传统的存储硬件故障告警是必要的,没有必要重复发明轮子,即使再次发明,还是要参考原装的轮子
然后,要用自己习惯的工具,不限于商用还是开源。用的好,顺手,才能有后续的深入
最后,如果自己能做一点小工具。满足日常监控和告警,就比较理想。

不要一开始就想让一个系统满足所有的要求,系统大了就难转动,无法按自己的需求更改。
要解决自己遇到的问题,先看商用,再看开源,然后看自己的代码能力。

根因,始终是难题。
可以先将日常监控分为故障告警和使用告警。后者监控类似100% CPU使用率,超过200ms延迟,光衰严重降低等情况。
故障告警,厂商解决。
使用告警,自己解决。

收起
IT其它 · 2022-08-30
浏览1067

提问者

luanxs
存储工程师某证券行业
擅长领域: 存储存储选型服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-08-25
  • 关注会员:8 人
  • 问题浏览:2327
  • 最近回答:2022-09-19
  • X社区推广