以我做过的项目为例,至少有下面几个原因:
1. 机器数量众多,导致查看一个应用日志可能需要登录多台主机才可以定位到
2. 告警困难,很多时候并不是 进程死掉了才需告警,而且里面出现了error 、或者其他关键字就需要告警,甚至是需要关联上下文进行告警。
3. 问题追踪困难,比如日志中发现 timeout关键字,是因为什么原因呢?交换机、防火墙、还是因为本身的系统问题导致timeout呢?
4. 实时性,不仅是前面说的告警、问题追踪的实时性还需要 统计需求实时性。
5. 需要定时汇报应用、系统情况