互联网服务GPFS 故障处理

大家说说gpfs环境遇到过的故障情况和处理方法？

如题

关注6

参与26

5同行回答
全部行业
全部行业 IT咨询服务 互联网服务 系统集成 银行
|
按赞同排序
按时间排序

Jhon技术经理小学生

1.网络故障
2.文件吴删除rm
3.权限设置

收起

IT咨询服务 · 2017-07-20

查看赞同的人

wangql系统工程师NULL

某用户拿一箱刀片做了gpfs集群，系统都linux ppc，gpfs印象中还是3.1的，其中一个刀片的硬盘坏了，重装系统和配置gpfs赶紧还行，上面的科学运算的软件跑多少年了，没介质，谁也不会配。
思来想去，在一个好的刀片上，通过linux的启动盘进入救援模式，把整块盘dd到了移动硬盘里。
然后再通过光盘启动故障刀片，把移动硬盘里的镜像dd回新换的硬盘上。前后耗时3天。

dd完后，刀片直接可以启动，重新修改主机名，ip地址，软件的参数文件等参数。然后依次和各节点做互信，最后到gpfs里把节点删了，重新添加了一遍就好了。

收起

IT咨询服务 · 2017-07-21

查看赞同的人

twt社区管理员邀答

jxnxsdengyu

系统工程师江西农信

简单说下：
1.遇到过GPFS文件系统的INODE数满的情况，因为GPFS默认的比较小，遇到小文件比较多的文件系统需求，非常容易满，建议提前规划好，规避该问题。
2.遇到过GPFS SAN网络模式时，两个GPFS NODE共享一块存储盘，做NSD，并创建GPFS 文件系统，但是忘记做tierbreakdisk,导致一个NODE故障宕机时，整个GPFS集群不可用，文件系统被卸载。
还有其他，先简单说这两点吧，抛砖引玉。

收起

银行 · 2017-07-20

查看赞同的人

twt社区管理员邀答

zwz99999系统工程师dcits

df -g 显示
Filesystem GB blocks Free %Used Iused %Iused Mounted on
/dev/hd4 5.00 2.77 45% 18490 3% /
....
/dev/oracle_data01 75.00 9.63 90% 4031 100% /oracle/MCS/data01
访问 data01文件系统慢，空间查看占用100，Iused 显示100%，
扩大gpfs 文件系统data01最大inode数即可！
####
下面的命令可以扩充Inode 的个数:
/usr/lpp/mmfs/bin/mmchfs data01 –F maxnuminodes
maxnuminodes是一个整数，可以设置为系统缺省值的5-10倍

收起

系统集成 · 2017-07-20

查看赞同的人

twt社区管理员邀答