本文是《优维全面可观测产品能力分解》系列文章的第六篇: 『运维状态可观测』 。基于可观测的数据体系,「运维状态可观测」是实现于运维状态的一次深入可观测。
在日常运维场景中,系统/应用运维人员重点关注的是系统/应用是否可用,使用是否流畅及是否够用。基于此,「运维状态可观测」提供三大观测能力,包含可用性管理、性能管理、容量管理。其中, 【可用性管理】 则是结合SRE的SLO&SLI体系,呈现所有系统的可用性目标和可用性指标情况; 【性能管理】 是从性能的角度全面查看系统、服务和接口的性能情况,并快速识别出系统瓶颈; 【容量管理】 是从容量规划、容量呈现、容量运营等角度,实现对系统、应用的动静态容量管理。
1
可用性管理
可用性管理是确保任何IT服务一致且成本高效地提供客户所需的一致可靠服务级别的过程。可用性管理涉及最大程度地减少服务损失,并确保在服务丢失时采取适当措施。优维提供的【可用性管理】综合了服务的拨测成功率和SLO进行对比分析,通过可视化的形式,呈现所有系统的可用性目标与可用性指标,帮助企业有效衡量服务的可用性。
在可用性管理能力开发之前,基于实践观察,优维技术团队从三个方面梳理了当前企业在可用性管理上的痛点所在:
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞0
添加新评论0 条评论