我这里有几十套不同的系统,上百个服务器,网络设备,虚机,目前用foglight搭建监控环境,请问诸位搭建运维监控系统时,通过什么视角比较合适?
1.是按某个系统的拓扑图,建立混合监控环境,.还是按不同类型去搭建?
2.当发生实际问题时,如何通过监控平台去 定位问题 ,是否有通用的套路
3.当发现问题后,是先定位问题,再生成事件,通过ITSM分配任务;还是先把问题,生成任务,分配给一组人,对定位问题
4.能否提供一个现实的案例,能清晰的表现出, 如何发现问题,如何定位问题,如何解决问题,如何预防问题,这一个完整流程。
1、监控主要分为这样几个维度:资源监控(含操作系统、数据库、中间件、网络、存储、硬件以及环境)、应用监控(应用运行的状态,如进程、日志、状态等)、交易监控(如交易量、响应时间、成功率等),还可抽象到业务级监控。所以监控环境的搭建需要根据企业运维要求,按照不同纬度、不同层次进行监控
2、当发生问题的时候一定是监控平台发现故障,至于问题定位上简单故障(如硬件等)可直接定位,如复杂故障需要借助其它的分析方法
3、发现问题后先根据事件级别生成事件单,运维人员保留现场恢复生产,然后有事件单专为问题单再详细分析根本原因,记录知识库。
收起个人建议:
1、首先以公司核心业务系统为主,做尽量全方位的监控,远离IT服务价值为目标,只为建立监控系统而做的监控不过是耍流氓而已。所以可以对相关系统按重要性、系统类型、设备分类等多个维度进行监控分类。
2、当实际问题发生时,监控系统的报表或监控日志将作为问题分析和排查的重要依据,如果还需要重新从最低层的日志进行分析的话,排查效率将会十分低下,如果加上企业IT运维管理人员的变更,将可能造成重大经济损失。
3、当问题发生后,标准的ITSM流程应该是立即生成一个ticket请求,由服务台进行任务或事件分配,由相应的工程师解决问题后进行关闭请求,如果未解决将为失败关闭该请求,一直到有新的解决方案后,该问题将彻底关闭。
4、建议去参加相关ITSM流程优化等方面的培训。
收起目前我正在建设本公司的运维监控系统,基本覆盖了所有的服务器,数据库,虚机,网络设备,机房温湿度仪。请问,按照尽可能全方位的监控原则,还有哪些项目应纳入监控范围。
目前我这的监控机制如下,监控系统每分钟轮询各监控项目,当发现目标系统触发规则就报警,通过短信发送到相关干系人手机。目前设定的规则主要有以下这些:
1.目标系统无法被检测到+持续一段时间
2.磁盘剩余空间预警
3.数据库表空间,备份,lock ,latch
4.服务器某项硬件资源使用率达到100%+持续一段时间
5.网络设备检测到流量突然达到超过某个baseline + 持续一段时间
6.机房温度超过某个数值
请问,一般还有哪些常见规则,应触发告警
我们公司有很多创新项目,当这些系统发生故障,并没有历史资料库可做参考的情况下,一般定位问题的方法流程是如何的?
收起可以考虑增加一下中间件的性能监控
收起问题发生应该以解决故障为目标,推荐快速不留现场然后解决事件,之后再解决问题
收起