案例4 小脚本惹出了大麻烦

字数 494阅读 4333评论 0赞 0

案例4 小脚本惹出了大麻烦

某银行灾备环境. 运维人员经常需要远程校验灾备端数据的可用性。为了方便日常的常规操作写了专门的启动停止脚本.执行完脚本就登录不上测试主机了.能ping通。运维人员反映，偶尔也会发生这样的问题，一般做法就是要求系统管理员帮他们重新启动分区，听完了，感觉问题好诡异啊。我们通过HMC登录到分区，AIX运行正常。后来经常一番仔细排查询问找到了"病根".

欢迎大家交流,下面公布原因

#!/bin/sh
su - oracle -c "/home/oracle/stopdb.sh"
echo "Please waitting for 30 seconds..."
sleep 10
su - oracle -c "/home/oracle/stopasm.sh"
/etc/init.cssd stop
/home/oracle/removedev.sh

#!/bin/sh
. /home/oracle/.profile
echo `id`
echo `env|grep ORA`
export ORACLE_SID=scdb
sqlplus '/as sysdba' <

#!/bin/sh
#umount filesystem
fuser -kux /oracle
umount /oracle

#varyoffvg
varyoffvg oralevg

#exportvg
exportvg oralevg

#rmdev
rmdev -dl hdisk10
rmdev -dl hdisk11
rmdev -dl hdisk12
rmdev -dl hdisk13
rmdev -dl hdisk14
rmdev -dl hdisk15
rmdev -dl hdisk16
rmdev -dl hdisk17

确实是脚本里的这行出问题，不是说这行命令有问题，是每次出现这个问题的时候，运维人员说过，有时候执行脚本停止里面有一些报错，为了保证执行成功，他们又执行了一遍。问题就出在这里，本来第一遍执行的时候/oracle已经被成功umount了，第二次执行的时候就不是/oracle文件系统了，而是一个目录，这个时候fuser会把很多root相关的进行直接kill掉，导致我们无法再登录了。

fuser -kux /oracle

这个场景很好模拟，找台测试机，执行2遍，效果自然就显现了。

如何解决呢，通过hmc登录到终端重启ssh进程，startsrc -s ssh.虽说这样能够重新登录,但是里面可能有其他的进程没有被重新启动，最安全的办法还是重启一下分区。

HMC测试

 著作权归作者所有

如果觉得我的文章对您有用，请点赞。您的支持将鼓励我继续创作！

赞0

`添加新评论0 条评论`

Ctrl+Enter 发表

匿名评论

`本文隶属于专栏`

AIX系统故障案例集锦
IBM Power
AIX PowerHA PowerVM PowerVC IBM flashsystem SVC Storage 等相关技术案例

`作者其他文章`

[全网首发]Brocade全系列交换机解决无法Web访问问题
评论 2 · 赞 5

PowerHA SystemMirror发展线路图
评论 1 · 赞 5

案例2 经典的双机双存储，某晚主存储异常故障，业务立刻中断
评论 1 · 赞 1

如何使用KDB分析PowerHA宕机原因
评论 0 · 赞 1

V7000紧急的状态，紧急的处理
评论 0 · 赞 3

`相关文章`

招聘 | 交银金科发布开发、数据分析、AI算法、运维、产品等多个岗位

招聘 | 中国银行软件中心发布2023年社招，涉架构、开发、安全、测试等 地域：北京、西安、合肥等

招聘 | 广发银行研发中心9个岗位招40人，涉架构、产品、研发、测试等地域：佛山、北京

招聘 | 浙商银行发布多个金融科技岗，涉研发、测试、数据等地域：杭州

那些年，我们用并行遇到的坑

`相关问题`

AIX 从零开始怎么安装？

HMC v6版本怎么远程管理？

power5修改HMC地址后不能登录？

在K8S中部署Redis+MySQL连通性问题？

P720 HMC终端，无法登录系统？

`相关资料`

AIX及S924小型机日常维护手册

DS_ST_3002 EDS文件存储性能测试

查看IBM小机HMC端口的IP地址

HMC更换主板后网卡的重新配置

HMC Scanner服务器配置和性能统计工具