银行运维日志分析平台目前我们也还没有做,现在这样的一个分析平台,在银行会哪些应用场景?有做的经验能否分享下。
日志运维分析系统主要用于采集操作系统,应用中的各种类型的日志,进行统一的管理。从这方面来看,日志系统的业务针对性不强,但从国内的IT环境来看,还是金融电信等类企业的IT运维人员管理的系统较多。当管理的系统个数增加,有效管理大量系统日志比较困难,何况这些日志还是分散在不同的目录下。
从场景来看,大致如下:
(1) 全局的日志检索
日志系统收集操作系统,系统软件,数据库,应用的日志,将多个操作系统上的多种日志,收集到大数据平台,统一进行管理。
不同于以往的运维人员每次仅可查看数量有限的几种日志,该系统对外提供单条件,多条件,模糊查找功能,帮助用户从多个系统中快速定位故障信息,帮助运维人员从全局视角查看系统的运维状况。
(2) 报表展示
该系统将各系统的日志进行统计分析并生成各类报表,对各类日志进行多维度、多角度深入分析及可视化展现,对外提供各种报表和dashboard,例如:日志统计柱状图,故障类型统计图,故障数量TOP10的系统等,将来自于各个系统的大量日志数据可视化,形象地展示给运维人员,管理人员。
(3) 及时的故障告警
该系统采用流计算技术,实时采集系统各类日志,一旦发现故障,及时推送告警到"消息推送框",提醒运维人员,及时处理数据。
(4) 日志关联展现
建立应用、系统、物理主机之间的逻辑从属关系, 从而将平面的日志变为立体的日志。通过对日志源与对应系统的逻辑关系记录,立体展现日志的分布情况,具备大局观式的一目了然的特点,对于问题的定位更加快速、直观,使得问题的解决更加容易便捷。
(5) 日志分析和挖掘
对日志进行数据挖掘,生成分析类报表,例如某些故障之间有时间上的先后关系,例如交换页不足,内存不足会逐渐导致系统故障或应用故障,该系统建立关联模型,发现前者故障,提醒用户可能后继可能发生系统故障或应用故障。