互联网服务Linux故障处理

查看其它 1 个回答晓溪溪的回答

晓溪溪晓溪溪网站架构师联招

Ds5020 故障,硬盘亮黄灯,DS软件查看硬盘状态为Impending Failure
1.手工Fail Drive
2.拔下硬盘
3.等待30秒以上,插入新的硬盘
查看状态,应该正在同步
等待阵列同步完成,时间视数据量大小而定
linux 出现丢包解决方法
故障排查:
早上突然收到nagios服务器check_icmp的报警,报警显示一台网站服务器的内网网络有问题。因为那台服务器挂载了内网的NFS,因此内网的网络就采用nagios的check_icmp来做监控。
赶紧登录服务器进行排查。首先使用ping 内网IP的方式查看内网的连通性,ping的过程中出现丢包现象
解决办法:
发现确实已经达到了最大会话数,通过google发现,可以直接调大用户的最大会话数,命令为:
echo "102400" > /proc/sys/net/ipv4/ip_conntrack_max
执行此命令后,不在丢包了,ping也正常了。但是这样设置不会永久保存,当系统重启后设置会丢失,因此需要保存到/etc/sysctl.conf,在/etc/sysctl.conf中加入:net.ipv4.ip_conntract_max =102400,然后执行/sbin/sysctl –p刷新内核参数即可,如果出现error:"net.ipv4.ip_conntract_max" is an unknown key报错的话,需要加载ip_conntract模块,使用modprobe  ip_conntrack加载,使用lsmod | grepip_conntrack查看模块是否加载。
终极解决:
为了使彻底解决此问题,还需要再设置一个东西,那就是会话连接超时变量,这个参数设置太长的话就会导致会话连接数不断增加,默认是设置为432000秒,很显然这个值太大了,通过如下命令设置小一点:

解决一个备份异常的故障
某个主机的数据库备份突然变慢。
正常的速度是每秒100m+,但只有这个数据库是每秒几K.
 排除了一些可能性后,最后发现该主机的ftp速度是异常的,
速度也是每秒几K。检查网卡的状态,也是正常的。长ping也不丢包。
 怀疑还是网卡异常了,刚好主机上有一个多余的网卡,将ip配置到空闲网卡上,备份速度也正常了。

X3650的内存故障
在一次停电之后,该台IBMx3650宕机,光通路MEM警报灯亮起,更换两根内存系统也无法正常启动。
 每次安装或卸下 DIMM 时,必须断开服务器电源;然后,等待 10 秒钟再重新启
动服务器。

  1. 重新安装 DIMM;然后重新启动服务器。
  2. 卸下所识别的 DIMM 中编号最小的 DIMM 对,并用相同的已知完好 DIMM 对进
    行更换;然后重新启动服务器。必要的话,重复上述操作。如果更换了所有已确认
    的 DIMM 对后故障仍存在,请转至步骤 4。
  3. 将卸下的 DIMM 逐对重新安装到原始接口中,每安装一对后重新启动服务器,直至
    找到发生故障的 DIMM 对。用相同的已知完好 DIMM 逐个替换发生故障的 DIMM
    对中的每个 DIMM,每次替换后重新启动服务器。更换发生故障的 DIMM。重复步
    骤 3 直到已测试所有卸下的 DIMM。
  4. 更换已识别的 DIMM 对中编号最小的 DIMM 对;然后重新启动服务器。必要的
    话,重复上述操作。
  5. 在各通道间交换 DIMM(同一微处理器),然后重新启动服务器。如果问题是由
    DIMM 引起,请替换发生故障的 DIMM。
  6. (仅限经过培训的技术服务人员)将发生故障的 DIMM 安装到微处理器 2(如果已
    安装)的 DIMM 插槽中,以验证问题是否与微处理器或 DIMM 插槽无关。
  7. (仅限经过培训的技术服务人员)更换主板。

DS存储故障求教
从DS3300搜集的日志来看
1.fw bug,需要升级
2.电池问题,更换电池或者reset一下
3.cache本身有没有问题,或者disable,再enable一下

处理内置RAID硬盘故障问题的总结
处理内置RAID硬盘故障问题的总结
一数据文件损坏
清日志后,重启动机器,发现系统报错跟没更换硬盘以前相同
将原raid删除重建(因为数据不是很重要,所以数据文件损坏不管,只要重建文件就行),仍然有constructing halt报错。再删除重建,发现另一颗硬盘亮黄色告警灯
更换此硬盘,再重建raid,重启动机器,I/O ERROR DETECTED BY LVM 这个报错没了
DISK OPERATION ERROR这个报错在开机,或者诊断阵列卡的时候,都有,没办法,好多机器都是这样,不影响使用。
在已经重建好的raid上创建数据库文件,启动syabse测试,业务正常
手动fail这里中的硬盘,重启动机器,再启动sybase测试,业务正常
将手动fail的硬盘再添加到raid中,重建完成后,重启动机器,测试sybase正常
到此,问题处理完毕。
总结:1。内置raid很脆弱,建议出现硬盘fail后,尽快做数据备份
            2 。更换硬盘尽量热插拔,最好不要关机,数据库还是要停下的
            3。不要坏一颗盘你就带一颗盘去更换,最好坏一个你带2个,坏2个你带3个
            4。系统无法诊断硬盘故障,如果硬盘坏了,raid卡发现不了,就很痛苦,比如这次,只能从 I/O ERROR DETECTED BY LVM 去推断个客户p610小型机,内置RAID有一颗硬盘坏掉

附件:

附件图标故障案列.docx (17.22 KB)

互联网服务 · 2017-10-12
浏览1673

回答者

晓溪溪
网站架构师联招
擅长领域: Linux服务器

回答状态

  • 发布时间:2017-10-12
  • 关注会员:3 人
  • 回答浏览:1673
  • X社区推广