我这里有几十套不同的系统,上百个服务器,网络设备,虚机,目前用foglight搭建监控环境,请问诸位搭建运维监控系统时,通过什么视角比较合适?
1.是按某个系统的拓扑图,建立混合监控环境,.还是按不同类型去搭建?
2.当发生实际问题时,如何通过监控平台去 定位问题 ,是否有通用的套路
3.当发现问题后,是先定位问题,再生成事件,通过ITSM分配任务;还是先把问题,生成任务,分配给一组人,对定位问题
4.能否提供一个现实的案例,能清晰的表现出, 如何发现问题,如何定位问题,如何解决问题,如何预防问题,这一个完整流程。
个人建议:
1、首先以公司核心业务系统为主,做尽量全方位的监控,远离IT服务价值为目标,只为建立监控系统而做的监控不过是耍流氓而已。所以可以对相关系统按重要性、系统类型、设备分类等多个维度进行监控分类。
2、当实际问题发生时,监控系统的报表或监控日志将作为问题分析和排查的重要依据,如果还需要重新从最低层的日志进行分析的话,排查效率将会十分低下,如果加上企业IT运维管理人员的变更,将可能造成重大经济损失。
3、当问题发生后,标准的ITSM流程应该是立即生成一个ticket请求,由服务台进行任务或事件分配,由相应的工程师解决问题后进行关闭请求,如果未解决将为失败关闭该请求,一直到有新的解决方案后,该问题将彻底关闭。
4、建议去参加相关ITSM流程优化等方面的培训。
收起