Ds5020 故障,硬盘亮黄灯,DS软件查看硬盘状态为Impending Failure
1.手工Fail Drive
2.拔下硬盘
3.等待30秒以上,插入新的硬盘
查看状态,应该正在同步
等待阵列同步完成,时间视数据量大小而定
linux 出现丢包解决方法
故障排查:
早上突然收到nagios服务器check_icmp的报警,报警显示一台网站服务器的内网网络有问题。因为那台服务器挂载了内网的NFS,因此内网的网络就采用nagios的check_icmp来做监控。
赶紧登录服务器进行排查。首先使用ping 内网IP的方式查看内网的连通性,ping的过程中出现丢包现象
解决办法:
发现确实已经达到了最大会话数,通过google发现,可以直接调大用户的最大会话数,命令为:
echo "102400" > /proc/sys/net/ipv4/ip_conntrack_max
执行此命令后,不在丢包了,ping也正常了。但是这样设置不会永久保存,当系统重启后设置会丢失,因此需要保存到/etc/sysctl.conf,在/etc/sysctl.conf中加入:net.ipv4.ip_conntract_max =102400,然后执行/sbin/sysctl –p刷新内核参数即可,如果出现error:"net.ipv4.ip_conntract_max" is an unknown key报错的话,需要加载ip_conntract模块,使用modprobe ip_conntrack加载,使用lsmod | grepip_conntrack查看模块是否加载。
终极解决:
为了使彻底解决此问题,还需要再设置一个东西,那就是会话连接超时变量,这个参数设置太长的话就会导致会话连接数不断增加,默认是设置为432000秒,很显然这个值太大了,通过如下命令设置小一点:
解决一个备份异常的故障
某个主机的数据库备份突然变慢。
正常的速度是每秒100m+,但只有这个数据库是每秒几K.
排除了一些可能性后,最后发现该主机的ftp速度是异常的,
速度也是每秒几K。检查网卡的状态,也是正常的。长ping也不丢包。
怀疑还是网卡异常了,刚好主机上有一个多余的网卡,将ip配置到空闲网卡上,备份速度也正常了。
X3650的内存故障
在一次停电之后,该台IBMx3650宕机,光通路MEM警报灯亮起,更换两根内存系统也无法正常启动。
每次安装或卸下 DIMM 时,必须断开服务器电源;然后,等待 10 秒钟再重新启
动服务器。
DS存储故障求教
从DS3300搜集的日志来看
1.fw bug,需要升级
2.电池问题,更换电池或者reset一下
3.cache本身有没有问题,或者disable,再enable一下
处理内置RAID硬盘故障问题的总结
处理内置RAID硬盘故障问题的总结
一数据文件损坏
清日志后,重启动机器,发现系统报错跟没更换硬盘以前相同
将原raid删除重建(因为数据不是很重要,所以数据文件损坏不管,只要重建文件就行),仍然有constructing halt报错。再删除重建,发现另一颗硬盘亮黄色告警灯
更换此硬盘,再重建raid,重启动机器,I/O ERROR DETECTED BY LVM 这个报错没了
DISK OPERATION ERROR这个报错在开机,或者诊断阵列卡的时候,都有,没办法,好多机器都是这样,不影响使用。
在已经重建好的raid上创建数据库文件,启动syabse测试,业务正常
手动fail这里中的硬盘,重启动机器,再启动sybase测试,业务正常
将手动fail的硬盘再添加到raid中,重建完成后,重启动机器,测试sybase正常
到此,问题处理完毕。
总结:1。内置raid很脆弱,建议出现硬盘fail后,尽快做数据备份
2 。更换硬盘尽量热插拔,最好不要关机,数据库还是要停下的
3。不要坏一颗盘你就带一颗盘去更换,最好坏一个你带2个,坏2个你带3个
4。系统无法诊断硬盘故障,如果硬盘坏了,raid卡发现不了,就很痛苦,比如这次,只能从 I/O ERROR DETECTED BY LVM 去推断个客户p610小型机,内置RAID有一颗硬盘坏掉
附件:
故障案列.docx (17.22 KB)