故障处理
故障处理
该主题还没有描述

文章

故障定位·2021-09-09
penghuasheng广发证券 擅长领域:系统运维, 云计算, 监控
98 会员关注
企业IT故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得...(more)
专栏: 最佳实践
浏览8008
故障分析·2021-08-12
penghuasheng广发证券 擅长领域:系统运维, 云计算, 监控
98 会员关注
TBF(无故障时长)和TTR(故障修复时长)是业务连续性管理两个重要指标,故障处置管理的目标就是为了最大限度的增加TBF和缩短TTR。在具体管理中,我们通常会根据故障应急处置时间轴扩展以下指标:MTBF(无故障时长)、MTTI(平均故障发现时长)、MTTK(故障定位时长)、MTTF(平均故障处理时长)、MTTR...(more)
专栏: 最佳实践
浏览4444
评论1
分布式存储·2018-12-27
Lucien168地平线机器人 擅长领域:存储, 分布式系统, 分布式架构
91 会员关注
3.常见PG故障处理3.1PG无法达到CLEAN状态创建一个新集群后,PG的状态一直处于active,active+remapped或active+degraded状态,而无法达到active+clean状态,那很可能是你的配置有问题。你可能需要检查下集群中有关Pool、PG和CRUSH的配置项,做以适当的调整。一般来说,你的集群中需...(more)
浏览4011
评论2
分布式存储·2018-12-26
Lucien168地平线机器人 擅长领域:存储, 分布式系统, 分布式架构
91 会员关注
2.常见OSD故障处理进行OSD排障前,先检查一下monitors和网络。如果cephhealth或ceph-s返回的是健康状态,这意味着monitors形成了法定人数。如果monitor还没达到法定人数、或者monitor状态错误,要先解决monitor的问题。核实下你的网络,确保它在正常运行,因为网络对OSD的运行和性...(more)
浏览1834
分布式存储·2018-12-25
Lucien168地平线机器人 擅长领域:存储, 分布式系统, 分布式架构
91 会员关注
1.常见MON故障处理Monitor维护着Ceph集群的信息,如果Monitor无法正常提供服务,那整个Ceph集群就不可访问。一般来说,在实际运行中,CephMonitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,Ceph的Paxos算法就能保证系统的正常运行。所以,当Monitor出现故障的...(more)
浏览2220
评论1
存储双活·2018-10-08
mac2008IT公司 擅长领域:存储, 云计算, 安全
360 会员关注
一、故障概述最近处理了一起同城存储双活故障事件,故障比较典型,整理出来和大家进行技术分享,欢迎大家对存储双活架构进行讨论、指教。故障现象是客户反馈业务系统中断,部分虚拟机无法访问。通过VMwarevsphere控制台登录检查发现,虚拟机灰色状态,部分共享存储不可访问。71m1uk5...(more)
浏览6139
评论4
Oracle·2018-03-20
wangxuefenga 擅长领域:服务器, 数据库, 前置系统
17 会员关注
场景:Oracle11g,Windows20088server问题:监听启动后,直接提示路径重复,不识别64位的Windows,但是最后可以起来。数据库可以基本正常使用,数据源可以正常连接,但是dblink不能用。解决过程:1.重新建立dblink,测试不可行;2.重新建立监听,发现监听直接起不来,直接报12532问题,遇到提示,...(more)
浏览1652
Linux·2017-07-21
James_LiuAXA 擅长领域:数据库, 关系型数据库, 数据库系统改造
132 会员关注
与windows系统一样,linux操作系统也会存在很多问题和故障,很多linux新手都害怕故障,面对出现的问题显得无可奈何,更有甚者,由此放弃了linux,其实,我们不应该惧怕问题,学习就是一个发现问题与解决问题的过程,只要掌握了解决问题的基本思路,一切故障都会迎刃而解,当然前提是我们已经具...(more)
浏览1598
数据库·2017-02-24
yunzhongyueGBase 擅长领域:数据库, GBase 8t, Informix
14 会员关注
一、南大通用简介南大通用数据技术股份有限公司是一家专注于数据库技术和产品服务的公司,目前拥有员工700余人,其中研发和技术支持人员450余人,是规模最大的国产数据库厂商。自2004年成立以来,南大通用始终秉持"让中国用上世界级国产数据库"的信念,通过自主研发与技术引进相结...(more)
浏览2600
故障处理·2016-11-23
twt运营twt 擅长领域:灾备, 双活, 云计算
484 会员关注
转自公众号:运维派在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一例子):业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错...(more)
浏览1152

描述

该主题还没有描述
X社区推广
  • 提问题