医药运维监控证券一体化监控

运维监控系统，按什么视角去建设？

我这里有几十套不同的系统，上百个服务器，网络设备，虚机，目前用foglight搭建监控环境，请问诸位搭建运维监控系统时，通过什么视角比较合适？

1.是按某个系统的拓扑图，建立混合监控环境，.还是按不同类型去搭建？

2.当发生实际问题时，如何通过监控平台去定位问题，是否有通用的套路

3.当发现问题后，是先定位问题，再生成事件，通过ITSM分配任务；还是先把问题，生成任务，分配给一组人，对定位问题

4.能否提供一个现实的案例，能清晰的表现出，如何发现问题，如何定位问题，如何解决问题，如何预防问题，这一个完整流程。

关注10

参与62

6同行回答
全部行业
全部行业 互联网服务 银行 医药 生活生产服务其它
|
按赞同排序
按时间排序

rainbowlily项目经理CCB

1、监控主要分为这样几个维度：资源监控（含操作系统、数据库、中间件、网络、存储、硬件以及环境）、应用监控（应用运行的状态，如进程、日志、状态等）、交易监控（如交易量、响应时间、成功率等），还可抽象到业务级监控。所以监控环境的搭建需要根据企业运维要求，按照不同纬度、不同层次进行监控

2、当发生问题的时候一定是监控平台发现故障，至于问题定位上简单故障（如硬件等）可直接定位，如复杂故障需要借助其它的分析方法

3、发现问题后先根据事件级别生成事件单，运维人员保留现场恢复生产，然后有事件单专为问题单再详细分析根本原因，记录知识库。

收起

银行 · 2016-06-29

查看赞同的人

matrix001
谢谢回复。我不希望把监控系统复杂化，因此在设计监控系统时尽量不涉及具体的业务逻辑（涉及就抛给应用开发团队），尽量标准化，做出有共性的监控模型。我看你提到的交易量、响应时间、成功率等，也是有共性的内容；请问根据你的经验，在不涉及业务逻辑的情况下，除了刚才几项，还有哪些指标可以用来监测业务系统的状态。
2016-06-29
赞同
评论

添加评论

ljq2184929系统运维工程师中国建材

个人建议：

1、首先以公司核心业务系统为主，做尽量全方位的监控，远离IT服务价值为目标，只为建立监控系统而做的监控不过是耍流氓而已。所以可以对相关系统按重要性、系统类型、设备分类等多个维度进行监控分类。

2、当实际问题发生时，监控系统的报表或监控日志将作为问题分析和排查的重要依据，如果还需要重新从最低层的日志进行分析的话，排查效率将会十分低下，如果加上企业IT运维管理人员的变更，将可能造成重大经济损失。

3、当问题发生后，标准的ITSM流程应该是立即生成一个ticket请求，由服务台进行任务或事件分配，由相应的工程师解决问题后进行关闭请求，如果未解决将为失败关闭该请求，一直到有新的解决方案后，该问题将彻底关闭。

4、建议去参加相关ITSM流程优化等方面的培训。

收起

互联网服务 · 2016-06-29

查看赞同的人

wooyaa
你好，您现在还在从事运维的工作吗？我去年进入开发行业，想做这块儿业务。结果发现进坑了· 能帮帮忙嘛？
2020-06-29
赞同
评论
ljq2184929回复 wooyaa
好啊
2020-07-27
赞同
评论

添加评论

matrix001数据库管理员shaphar

目前我正在建设本公司的运维监控系统，基本覆盖了所有的服务器，数据库，虚机，网络设备，机房温湿度仪。请问，按照尽可能全方位的监控原则，还有哪些项目应纳入监控范围。

目前我这的监控机制如下，监控系统每分钟轮询各监控项目，当发现目标系统触发规则就报警，通过短信发送到相关干系人手机。目前设定的规则主要有以下这些：

1.目标系统无法被检测到+持续一段时间

2.磁盘剩余空间预警

3.数据库表空间，备份，lock ,latch

4.服务器某项硬件资源使用率达到100%+持续一段时间

5.网络设备检测到流量突然达到超过某个baseline + 持续一段时间

6.机房温度超过某个数值

请问，一般还有哪些常见规则，应触发告警

我们公司有很多创新项目，当这些系统发生故障，并没有历史资料库可做参考的情况下，一般定位问题的方法流程是如何的？

收起

医药 · 2016-06-29

查看赞同的人

qq373793057

系统工程师某银行

可以考虑增加一下中间件的性能监控

收起

银行 · 2016-06-29

查看赞同的人

matrix001
谢谢回复，中间件的性能监控比较复杂，很少有针对性的监控方案，就像我们公司使用的oracle 的企业服务总线 ESB一样，一直找不到完全针对性的产品，对它的监控，只能通过监控JAVA平台，数据库接口表来实现，总是有种隔靴搔痒的感觉，请问针对大量的中间件，有什么好的监控方案？
2016-06-29
赞同
评论

添加评论

zhangm系统架构师某银行

问题发生应该以解决故障为目标，推荐快速不留现场然后解决事件，之后再解决问题

收起

银行 · 2016-06-29

查看赞同的人

matrix001
谢谢回复，我们目前也这么做，但事后回溯事件时，往往因采样频率，监控不完全等原因，无法完全回溯现场。例如：某开单系统，突然卡住2，3分钟，但事后回溯时，我能在监控记录中清晰的看到事件发生时，应用系统上的中断数量，page in out，突然有一个脉冲，但是这个脉冲是由于什么引起的，我不知道。我只能根据那个脉冲的时间段，依据系统拓扑图，把关联的设备的状态全取出，看看哪些设备上也有类似的脉冲现象，然后根据时间轴，找到最早引发这一现象的点，然后抛给应用开发团队，去解决这问题，请问你们是如何事后解决问题的？
2016-06-29
赞同
评论

添加评论

xjdtd系统运维工程师失业中

根据你工作中的实际操作，确认哪些是你要关心的（状态是否正常），进行输出结果的监控不就可以了嘛

收起

生活生产服务其它 · 2016-07-04

运维监控系统，按什么视角去建设？

6同行回答
全部行业
全部行业 互联网服务 银行 医药 生活生产服务其它
|
按赞同排序
按时间排序

提问者

问题来自

相关文章

问题状态

运维监控系统，按什么视角去建设？

6同行回答全部行业全部行业互联网服务银行医药生活生产服务其它|按赞同排序按时间排序

提问者

问题来自

相关文章

问题状态

6同行回答
全部行业
全部行业互联网服务银行医药生活生产服务其它
|
按赞同排序
按时间排序