一台交换机就有250个监控项,一共有100多台交换机,请问如何优化监控项?

交换机监控项太多,有哪些项可以不用监控?1台交换机就有250个监控项了,一共有100多台交换机。

2回答

孔再华孔再华  数据库运维工程师 , 中国民生银行
刘康泊涯yinxin赞同了此回答
这个问题用智能运维来解决。我在做数据库指标的智能运维,和网络交换机指标没啥区别。将交换机指标全部采集,一段时间后,基于历史数据计算上下正常阈值区间,超出就是异常行为。这个方法可以做到单交换机单指标单独计算区间,不需要人工标注,满足不同交换机指标采用单独的阈值区间...显示全部

这个问题用智能运维来解决。我在做数据库指标的智能运维,和网络交换机指标没啥区别。将交换机指标全部采集,一段时间后,基于历史数据计算上下正常阈值区间,超出就是异常行为。这个方法可以做到单交换机单指标单独计算区间,不需要人工标注,满足不同交换机指标采用单独的阈值区间来监控,减少漏报问题

收起
 2019-08-20
浏览454
skey_dengskey_deng  系统运维工程师 , 大连农村商业银行股份有限公司
刘康yinxin赞同了此回答
个人认为交换机也需要按照不同的功能进行区分监控:1、核心交换,要全面监控,硬件信息包括CPU,内存,板块,电源模块,风扇,端口是否故障等,要监控arp表,mac地址表变化等,要监控各端口总流量,上行流量,下行流量,峰值流量,丢包状况等;2、接入交换(边缘交换)则仅监控硬件,以及端口总流量,上行流量,下...显示全部

个人认为交换机也需要按照不同的功能进行区分监控:

1、核心交换,要全面监控,硬件信息包括CPU,内存,板块,电源模块,风扇,端口是否故障等,要监控arp表,mac地址表变化等,要监控各端口总流量,上行流量,下行流量,峰值流量,丢包状况等;

2、接入交换(边缘交换)则仅监控硬件,以及端口总流量,上行流量,下行流量,峰值流量,丢包状况等即可,而且监控频率也可以调低,比如对于边缘交换的硬件则可以10分钟,30分钟监控一次,尤其是硬件的取值,因为接入交换重要程度地,硬件性能较差,如果监控频率高会影响硬件本身的性能。

3、对于两项的硬件监控,监控指标可以优化,正常情况下的监控系统对于CPU,内存等硬件都会有很多指标项,网络设备对于CPU,内存等硬件的依赖性不高(不排除特殊情况,此处仅是对比服务器之类的硬件来说),那么就可以只监控其可用性(好坏),以及使用率就可以。

4、对于端口流量的健康则要稍微频繁一点,这个根据贵公司的RPO,RTO要求进行设置,最高频率不超过30秒每次,否则会对设备产生性能压力。

我们对于核心交换是5分钟抽取一次硬件的监控信息,1分钟抽取一次流量信息,对于接入交换则采用30分钟抽取一次硬件信息,3分钟抽取一次流量信息的方式。

硬件监控包括,CPU可用性,CPU使用率,内存可用性,内存使用率,板块可用性,电源模块可用性,端口可用性

端口流量包括总流量,端口上行带宽,端口上行带宽峰值,端口下行带宽,端口下行带宽峰值,端口总流量,端口总流量峰值,丢包数,丢包比率

收起
 2019-08-20
浏览518
aixchina 邀答

问题状态

  • 发布时间:2019-08-16
  • 关注会员:3 人
  • 问题浏览:2500
  • 最近回答:2019-08-20
  • 关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
    © 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30