楼上说的没错,一要有数据,覆盖业务系统健康相关的数据能够持续拿到或对接分析,二是要有算法去分析、识别和提取数据变化特征,如基线和相关度等,才有当业务系统出现异常前的各种征兆匹配预警的能力。人工识别依赖的就是长期
任何预防性监控都需要对系统运行基线有持续跟踪学习、特征提取和匹配能力,需要借助大数据分析和机器学习能力,这也是IBM持续研究的方向之一,可参考IBM NOI(Netcool Operations Insight)和IOA-PI(IT Operations Analytics
监控本身是一把双刃剑,监控粒度越细,范围越广(如指标数量),对监控平台和被监控系统压力也越大,IBM也在持续优化监控技术,如代理设计尽量轻量和旁路采集,尽可能减少对被监控设备和业务系统的干扰,另外部署阶段的配置策略和经验
理论上可以,技术手段也成熟,如可利用IBM Runbook Automation或类似自动化工具,门槛是经验和流程设计,如交互式异常排查操作流程和脚本化。
针对各种IT专业元素的告警采集分析压缩关联可利用Netcool/OMNIbus能力,即插即用上百种类型的探针对接能力,基于告警的问题排查定位足以,结合日志或性能指标或配置的关联分析可结合IBM ITSM其他产品如IOA-LA,NCM, NPM等,好
IBM提供大数据日志分析产品IOA-LA是面向各种日志采集、格式化、索引、入库和搜索查询,一方面针对应用问题的日志查询诊断,类似Splunk这样的能力,另一方面和实时告警监控平台如Netcool/OMNIbus紧耦合形成上下文调用集成,可
面向操作系统的监控代理都会有本地磁盘监控能力,如IBM APM OS Agent
IBM APM产品以Manager/Agent机制,被监控系统可以通过部署Agent,也可以通过Agentless的方式,业务系统无需改造,用户自己定制的指标采集方式或脚本也可通过IBM提供的Agent Builder定制集成特定的Agent监控采集,灵活性很强。
据我所了解的,itil并没有关于event的标准,客户都有自己关于事件的优先级,字段,的定义,apm的事件会传到上一层的事件汇聚点,在ibm里面是omnibus,ominbus里面有关于event的标准,所有事件源都把事件发送到这里,统一标准化
深入钻去代码级别的能力,只针对Java,.NET, JS, 等等,这些领域。深度钻取,对性能有一定消耗,大约5%-10%不等,看交易负载量。需要在中间件安装探针,本质上的实现原理都是动态的植入代码,以获取客户应用交易执行结果和性能,比如,j2
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30