监控一体化后,会集中大量不同层面的监控数据,对这些海量数据进行深度挖掘利用的成熟案例,各位老师能否分享一下?
这方面成熟的框架现在有吗?能否讲讲?
海量监控数据的挖掘利用是需要结合实际运用场景才能实现价值最大化的,这里有一张我们运维大数据平台的整体框架图,最底层是海量运维数据接入层,包括各类指标型、日志型、配置型和流程型数据,第二层是数据采集组件层,通过代理及无代理两种方式进行接入数据的采集,第三层是数据总线和分析层,最上层是运维大数据的各类运用场景,主要包含两大块运用场景,一个是数据的应用场景,包括仪表盘、报表、实时检索分析、数据资产地图、数据的导出和共享等等。另一个是智能应用场景,包括智能监控、系统画像、智能预警、知识库等等场景。具体包括六大智能场景,见下表格,包括应用系统交易智能分析、 企业级系统智能感知、 企业级数据库智能洞察、 企业安全及网络智能防御、 企业级运维智能提升、 企业级存储智能评估。这些场景,目前部分已经实现落地,另一些还在积极摸索实现。
产品组件 | 场景价值 | AI算法模型 | 用户 |
应用系统交易智能分析 | 可视化交易链路上数字化表现,并直观的深入分析运行状态下应用系统平台的动态交易量异常评估、预警和深层次故障定位 | 故障树AI模型 动态阀值模型 系统知识图谱,单KPI异常检测,多KPI联合异常检测 多KPI异常机器和软件模块定位 调用链分析 | 应用支撑 |
企业级系统智能感知 | 结合Aix,Linux,Windows,HP等操作系统特点,智能评估系统运行稳定性状况 | 动态阀值模型 多KPI异常机器和软件模块定位 | 系统管理员 |
企业级数据库智能洞察 | 以DBA视角智能评估各项数据库核心指标,并给出数据库性能优化建议,故障定位功能 | 容量预测模型 指标预测模型 性能优化模型 | 数据库DBA |
企业安全及网络智能防御 | 基于安全规范框架,实现数字化环境下的持续自适应安全风险监测和防御 | 日志分析模型 日志关联模型 日志聚合模型 | 安全网络专家 |
企业级运维智能提升 | 在原有监控平台基础上改善优化运维能力,实现被动规则监控+主动AI模型预警。具有综合故障排查和日志综合分析功能 | 指标预测模型 日志分析模型 故障树AI模型 指标关联关系挖掘 | 系统监控管理员 |
企业级存储智能评估 | 存储智能运维针对多元,异构,多站点的数据中心,提供一站式,可视化,自动化,易扩展的智能存储运维。 | 容量预测模型 异常日志模型 存储知识库模型 设备故障预测 | 存储管理员 |