故障检测可以从日常设备巡检、系统、应用、中间件、数据库层日常巡检和定期的深度健康检查、日志分析等方面实现;应急切换需要根据提前设定好的故障切换演练方面里面的各个层面故障场景,对应到不同的现实故障应急操作;整个应急切换过程需要一个总协同控制人员指挥把握进度,因为复杂环境下应急切换需要关注从接入负载均衡层到底端数据存储层全条线的数据一致性。
这个。。。加强监控和不断演练、完善细节。
故障状态检查需要分层部署监控: 基础设施、操作系统、中间件、应用标准监控、业务类监控等;通过BPC等软件通过网络包做交易码级监控。对各项监控点梳理应急预案,定期进行预案的重检和演练。生产系统每半年进行一次切换演练,异地灾备每年进行一次切换演练,每季度做联通性测试。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30