运维监控系统,按什么视角去建设?

我这里有几十套不同的系统,上百个服务器,网络设备,虚机,目前用foglight搭建监控环境,请问诸位搭建运维监控系统时,通过什么视角比较合适?

1.是按某个系统的拓扑图,建立混合监控环境,.还是按不同类型去搭建?

2.当发生实际问题时,如何通过监控平台去 定位问题 ,是否有通用的套路

3.当发现问题后,是先定位问题,再生成事件,通过ITSM分配任务;还是先把问题,生成任务,分配给一组人,对定位问题

4.能否提供一个现实的案例,能清晰的表现出, 如何发现问题,如何定位问题,如何解决问题,如何预防问题,这一个完整流程。

参与62

6同行回答

rainbowlilyrainbowlily项目经理CCB
1、监控主要分为这样几个维度:资源监控(含操作系统、数据库、中间件、网络、存储、硬件以及环境)、应用监控(应用运行的状态,如进程、日志、状态等)、交易监控(如交易量、响应时间、成功率等),还可抽象到业务级监控。所以监控环境的搭建需要根据企业运维要求,按照不同纬度、不同层...显示全部

1、监控主要分为这样几个维度:资源监控(含操作系统、数据库、中间件、网络、存储、硬件以及环境)、应用监控(应用运行的状态,如进程、日志、状态等)、交易监控(如交易量、响应时间、成功率等),还可抽象到业务级监控。所以监控环境的搭建需要根据企业运维要求,按照不同纬度、不同层次进行监控

2、当发生问题的时候一定是监控平台发现故障,至于问题定位上简单故障(如硬件等)可直接定位,如复杂故障需要借助其它的分析方法

3、发现问题后先根据事件级别生成事件单,运维人员保留现场恢复生产,然后有事件单专为问题单再详细分析根本原因,记录知识库。

收起
银行 · 2016-06-29
浏览2855
  • 谢谢回复。我不希望把监控系统复杂化,因此在设计监控系统时尽量不涉及具体的业务逻辑(涉及就抛给应用开发团队),尽量标准化,做出有共性的监控模型。我看你提到的交易量、响应时间、成功率等,也是有共性的内容;请问根据你的经验,在不涉及业务逻辑的情况下,除了刚才几项,还有哪些指标可以用来监测业务系统的状态。
    2016-06-29
ljq2184929ljq2184929系统运维工程师中国建材
个人建议:1、首先以公司核心业务系统为主,做尽量全方位的监控,远离IT服务价值为目标,只为建立监控系统而做的监控不过是耍流氓而已。所以可以对相关系统按重要性、系统类型、设备分类等多个维度进行监控分类。2、当实际问题发生时,监控系统的报表或监控日志将作为问题分析和排...显示全部

个人建议:

1、首先以公司核心业务系统为主,做尽量全方位的监控,远离IT服务价值为目标,只为建立监控系统而做的监控不过是耍流氓而已。所以可以对相关系统按重要性、系统类型、设备分类等多个维度进行监控分类。

2、当实际问题发生时,监控系统的报表或监控日志将作为问题分析和排查的重要依据,如果还需要重新从最低层的日志进行分析的话,排查效率将会十分低下,如果加上企业IT运维管理人员的变更,将可能造成重大经济损失。

3、当问题发生后,标准的ITSM流程应该是立即生成一个ticket请求,由服务台进行任务或事件分配,由相应的工程师解决问题后进行关闭请求,如果未解决将为失败关闭该请求,一直到有新的解决方案后,该问题将彻底关闭。

4、建议去参加相关ITSM流程优化等方面的培训。

收起
互联网服务 · 2016-06-29
浏览2626
  • 你好,您现在还在从事运维的工作吗?我去年进入开发行业,想做这块儿业务。结果发现进坑了· 能帮帮忙嘛?
    2020-06-29
  • 好啊
    2020-07-27
matrix001matrix001数据库管理员shaphar
目前我正在建设本公司的运维监控系统,基本覆盖了所有的服务器,数据库,虚机,网络设备,机房温湿度仪。请问,按照尽可能全方位的监控原则,还有哪些项目应纳入监控范围。目前我这的监控机制如下,监控系统每分钟轮询各监控项目,当发现目标系统触发规则就报警,通过短信发送到相关干系人手...显示全部

目前我正在建设本公司的运维监控系统,基本覆盖了所有的服务器,数据库,虚机,网络设备,机房温湿度仪。请问,按照尽可能全方位的监控原则,还有哪些项目应纳入监控范围。

目前我这的监控机制如下,监控系统每分钟轮询各监控项目,当发现目标系统触发规则就报警,通过短信发送到相关干系人手机。目前设定的规则主要有以下这些:

1.目标系统无法被检测到+持续一段时间

2.磁盘剩余空间预警

3.数据库表空间,备份,lock ,latch

4.服务器某项硬件资源使用率达到100%+持续一段时间

5.网络设备检测到流量突然达到超过某个baseline + 持续一段时间

6.机房温度超过某个数值

请问,一般还有哪些常见规则,应触发告警

我们公司有很多创新项目,当这些系统发生故障,并没有历史资料库可做参考的情况下,一般定位问题的方法流程是如何的?

收起
医药 · 2016-06-29
浏览2501
qq373793057qq373793057课题专家组系统工程师某银行
可以考虑增加一下中间件的性能监控显示全部

可以考虑增加一下中间件的性能监控

收起
银行 · 2016-06-29
浏览2536
  • 谢谢回复,中间件的性能监控比较复杂,很少有针对性的监控方案,就像我们公司使用的oracle 的企业服务总线 ESB一样,一直找不到完全针对性的产品,对它的监控,只能通过监控JAVA平台,数据库接口表来实现,总是有种隔靴搔痒的感觉,请问针对大量的中间件,有什么好的监控方案?
    2016-06-29
zhangmzhangm系统架构师某银行
问题发生应该以解决故障为目标,推荐快速不留现场然后解决事件,之后再解决问题显示全部

问题发生应该以解决故障为目标,推荐快速不留现场然后解决事件,之后再解决问题

收起
银行 · 2016-06-29
浏览2664
  • 谢谢回复,我们目前也这么做,但事后回溯事件时,往往因采样频率,监控不完全等原因,无法完全回溯现场。例如:某开单系统,突然卡住2,3分钟,但事后回溯时,我能在监控记录中清晰的看到事件发生时,应用系统上的中断数量,page in out,突然有一个脉冲,但是这个脉冲是由于什么引起的,我不知道。我只能根据那个脉冲的时间段,依据系统拓扑图,把关联的设备的状态全取出,看看哪些设备上也有类似的脉冲现象,然后根据时间轴,找到最早引发这一现象的点,然后抛给应用开发团队,去解决这问题,请问你们是如何事后解决问题的?
    2016-06-29
xjdtdxjdtd系统运维工程师失业中
根据你工作中的实际操作,确认哪些是你要关心的(状态是否正常),进行输出结果的监控不就可以了嘛显示全部

根据你工作中的实际操作,确认哪些是你要关心的(状态是否正常),进行输出结果的监控不就可以了嘛

收起
生活生产服务其它 · 2016-07-04
浏览2422

提问者

matrix001
数据库管理员shaphar
擅长领域: 一体化监控监控系统运维

问题来自

相关文章

问题状态

  • 发布时间:2016-06-29
  • 关注会员:10 人
  • 问题浏览:9604
  • 最近回答:2016-07-04
  • X社区推广