复杂运维场景下监控如何能做到分钟级定位故障

互联网化时代的运维,服务器规模较传统方式有了数量级的增长,业务模式也多样和复杂,传统基于底层基础设施的告警在故障发生时定位到具体原因,不同岗位之间对故障处理协作的效率也难以提高。如何能打造一个以快速定位为目的监控体系

参与27

4同行回答

日志易日志易其它日志易
需要搭建日志实时搜索分析平台,能够对几秒钟内产生的日志做搜索,在定位到某个特征的一条日志时,搜索需要能同时返回其上下文各若干条日志,能够迅速判断问题原因。这类平台开源的有ELK,商业化解决方案,国外有Splunk、Sumologic,国内有日志易等。...显示全部

需要搭建日志实时搜索分析平台,能够对几秒钟内产生的日志做搜索,在定位到某个特征的一条日志时,搜索需要能同时返回其上下文各若干条日志,能够迅速判断问题原因。

这类平台开源的有ELK,商业化解决方案,国外有Splunk、Sumologic,国内有日志易等。

收起
软件开发 · 2016-06-29
浏览2549
qq373793057qq373793057课题专家组系统工程师某银行
一般的监控平台中都可以设置任务的轮询时间,对于重要的业务系统可以把轮询时间的值尽可能的设置小一些,但前提是agent要足够的轻量级,以免因此影响了服务性能。显示全部

一般的监控平台中都可以设置任务的轮询时间,对于重要的业务系统可以把轮询时间的值尽可能的设置小一些,但前提是agent要足够的轻量级,以免因此影响了服务性能。

收起
银行 · 2016-06-29
浏览2291
samssams系统架构师安信证券
不知道lz的意思是系统自动定位故障,还是提供足够方便的数据供运维人员定位?这可是两个完全不同的方向,如果是前者,我也很想知道,估计要出动alphago吧?显示全部

不知道lz的意思是系统自动定位故障,还是提供足够方便的数据供运维人员定位?这可是两个完全不同的方向,如果是前者,我也很想知道,估计要出动alphago吧?

收起
证券 · 2016-06-29
浏览2388
  • 如果是前者,主要还是要靠业务依赖链来做故障告警的收敛了。
    2016-06-29
zhangmzhangm系统架构师某银行
目前主要是基于场景与配置关系来做显示全部

目前主要是基于场景与配置关系来做

收起
银行 · 2016-06-29
浏览2310

提问者

nitkey
系统架构师ECT
擅长领域: 灾备双活系统运维

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2016-06-29
  • 关注会员:7 人
  • 问题浏览:7076
  • 最近回答:2016-06-29
  • X社区推广