某用户拿一箱刀片做了gpfs集群,系统都linux ppc,gpfs印象中还是3.1的,其中一个刀片的硬盘坏了,重装系统和配置gpfs赶紧还行,上面的科学运算的软件跑多少年了,没介质,谁也不会配。
思来想去,在一个好的刀片上,通过linux的启动盘进入救援模式,把整块盘dd到了移动硬盘里。
然后再通过光盘启动故障刀片,把移动硬盘里的镜像dd回新换的硬盘上。前后耗时3天。
dd完后,刀片直接可以启动,重新修改主机名,ip地址,软件的参数文件等参数。然后依次和各节点做互信,最后到gpfs里把节点删了,重新添加了一遍就好了。
收起简单说下:
1.遇到过GPFS文件系统的INODE数满的情况,因为GPFS默认的比较小,遇到小文件比较多的文件系统需求,非常容易满,建议提前规划好,规避该问题。
2.遇到过GPFS SAN网络模式时,两个GPFS NODE共享一块存储盘,做NSD,并创建GPFS 文件系统,但是忘记做tierbreakdisk,导致一个NODE故障宕机时,整个GPFS集群不可用,文件系统被卸载。
还有其他,先简单说这两点吧,抛砖引玉。
df -g 显示
Filesystem GB blocks Free %Used Iused %Iused Mounted on
/dev/hd4 5.00 2.77 45% 18490 3% /
....
/dev/oracle_data01 75.00 9.63 90% 4031 100% /oracle/MCS/data01
访问 data01文件系统慢,空间查看占用100,Iused 显示100%,
扩大gpfs 文件系统data01最大inode数即可!
####
下面的命令可以扩充Inode 的个数:
/usr/lpp/mmfs/bin/mmchfs data01 –F maxnuminodes
maxnuminodes是一个整数,可以设置为系统缺省值的5-10倍