微电子/半导体AIX系统

系统报错!(结贴了,谢谢大家!)

# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
3D32B80D   0923060209 P S topsvcs        NIM thread blocked
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
0873CF9F   0923060109 T S tty0           TTYHOG OVER-RUN
9F3821FD   0923010309 P S topsvcs        NIM excessive packet traffic
3D32B80D   0923010309 P S topsvcs        NIM thread blocked
3D32B80D   0923010309 P S topsvcs        NIM thread blocked
3D32B80D   0923010309 P S topsvcs        NIM thread blocked
3D32B80D   0923010309 P S topsvcs        NIM thread blocked
173C787F   0923010209 I S topsvcs        Possible malfunction on local adapter
3D32B80D   0922060909 P S topsvcs        NIM thread blocked
3D32B80D   0922060909 P S topsvcs        NIM thread blocked
3D32B80D   0922060909 P S topsvcs        NIM thread blocked
3D32B80D   0922060909 P S topsvcs        NIM thread blocked
3D32B80D   0922060909 P S topsvcs        NIM thread blocked
12081DC6   0922060909 P S harmad         SOFTWARE PROGRAM ERROR
3D32B80D   0922011209 P S topsvcs        NIM thread blocked
3D32B80D   0922011209 P S topsvcs        NIM thread blocked
3D32B80D   0922011209 P S topsvcs        NIM thread blocked
3D32B80D   0922011209 P S topsvcs        NIM thread blocked
AFA89905   0920135609 I O grpsvcs        Group Services daemon started
97419D60   0920135609 I O topsvcs        Topology Services daemon started
A6DF45AA   0920135109 I O RMCdaemon      The daemon is started.
2BFA76F6   0920134909 T S SYSPROC        SYSTEM SHUTDOWN BY USER
9DBCFDEE   0920135009 T O errdemon       ERROR LOGGING TURNED ON
192AC071   0920134509 T O errdemon       ERROR LOGGING TURNED OFF
B9735AF4   0914114109 P H hdisk2         SUBSYSTEM COMPONENT FAILURE






# errpt -aj 3D32B80D |more
---------------------------------------------------------------------------
LABEL:          TS_NIM_ERROR_STUCK_
IDENTIFIER:     3D32B80D

Date/Time:       Wed Sep 23 06:02:15 BEIST 2009
Sequence Number: 89911
Machine Id:      00CF1F114C00
Node Id:         sap-sao01
Class:           S
Type:            PERM
Resource Name:   topsvcs         

Description
NIM thread blocked

Probable Causes
A thread in a Topology Services Network Interface Module (NIM) process
was blocked
Topology Services NIM process cannot get timely access to CPU

User Causes
Excessive memory consumption is causing high memory contention
Excessive disk I/O is causing high memory contention

        Recommended Actions
        Examine I/O and memory activity on the system
        Reduce load on the system
        Tune virtual memory parameters
        Call IBM Service if problem persists

Failure Causes
Excessive virtual memory activity prevents NIM from making progress
Excessive disk I/O traffic is interfering with paging I/O

        Recommended Actions
        Examine I/O and memory activity on the system
        Reduce load on the system
        Tune virtual memory parameters
        Call IBM Service if problem persists

Detail Data
DETECTING MODULE
rsct,nim_control.C,1.39.1.21,5943            
ERROR ID
6BUfAx.bZIi8/qC6//2U2g0...................
REFERENCE CODE
                                          
Thread which was blocked
send thread
Interval in seconds during which process was blocked
          72
Interface name
tty0






---------------------------------------------------------------------------
LABEL:          TTY_TTYHOG
IDENTIFIER:     0873CF9F

Date/Time:       Wed Sep 23 06:01:58 BEIST 2009
Sequence Number: 89902
Machine Id:      00CF1F114C00
Node Id:         sap-sao01
Class:           S
Type:            TEMP
Resource Name:   tty0            

Description
TTYHOG OVER-RUN

Failure Causes
EXCESSIVE LOAD ON PROCESSOR

        Recommended Actions
        REDUCE SYSTEM LOAD.
        REDUCE SERIAL PORT BAUD RATE

参与44

37同行回答

symdeaixsymdeaix软件开发工程师shanghaihelian
哪里结贴了?显示全部

哪里结贴了?

收起
互联网服务 · 2016-02-25
浏览5322
abit2007abit2007系统工程师代维
回复 1# simon_cheng   一等就等了5年,坚持等到楼主回解决帖。:lol显示全部
回复 1# simon_cheng


  一等就等了5年,坚持等到楼主回解决帖。:lol收起
互联网服务 · 2015-04-17
浏览5325
qy115867317qy115867317系统工程师盘锦辽河数码科技发展有限公司
带着同样的问题来学习。显示全部
带着同样的问题来学习。收起
系统集成 · 2014-06-16
浏览5304
青铜1989青铜1989系统运维工程师北京银信长远科技股份有限公司
最近我公司的机器也出现这个报错了,导致oracel宕机,但是过了几个小时就自己好了,请问你是怎么解决这个问题的?显示全部
最近我公司的机器也出现这个报错了,导致oracel宕机,但是过了几个小时就自己好了,请问你是怎么解决这个问题的?收起
系统集成 · 2014-04-23
浏览5216
flm20080704flm20080704系统工程师XXXX
回复 1# simon_cheng     求版主分享处理方法显示全部
回复 1# simon_cheng


    求版主分享处理方法收起
IT其它 · 2013-06-13
浏览5264
yukay2010yukay2010系统工程师神州数码系统集成服务有限公司
遇上一样的报错!0873CF9F   0604093813 T S pts/2          TTYHOG OVER-RUN0873CF9F   0604093713 T S pts/2          TTYHOG OVER-RUN显示全部
遇上一样的报错!
0873CF9F   0604093813 T S pts/2          TTYHOG OVER-RUN
0873CF9F   0604093713 T S pts/2          TTYHOG OVER-RUN收起
系统集成 · 2013-06-05
浏览4184
咸鱼翻身咸鱼翻身软件开发工程师北京华胜天成科技股份有限公司
期待版主分享!显示全部
期待版主分享!收起
互联网服务 · 2013-04-10
浏览4219
yuyuluyuyulu系统工程师自由职业
这帖子这么久了,还没结帖的哦,我来说说吧。出现这个原因,是因为在这个时间点系统负载过高,造成内存严重不足。比如这个时候进行数据备份等操作,内存不足必然会造成paging space交换频繁,这个时候paging space % Used肯定会很高。这个时候可通过topas观察内存的使用情况,如果非计...显示全部
这帖子这么久了,还没结帖的哦,我来说说吧。出现这个原因,是因为在这个时间点系统负载过高,造成内存严重不足。比如这个时候进行数据备份等操作,内存不足必然会造成paging space交换频繁,这个时候paging space % Used肯定会很高。这个时候可通过topas观察内存的使用情况,如果非计算内存(% Noncomp )比较高的话,根本原因就是非计算内存长期不释放,AIX内存缺少,导致了Paging Space交换频繁。从而导致系统的负载比较高。
这个时候可通过修改限制AIX的nocomp(非计算)内存最大值来解决问题。
1、查看原来的AIX的minperm%、maxclient%、maxperm%的值。如下:
Root用户查看:
#vmo –a
minperm% = 20
maxclient% = 80
maxperm% = 80

2、可将minperm%设置成10,maxclient%设置成20,maxperm%设置成20,甚至更小
    用root命令行执行:
   vmo -o -p minperm%=10
   vmo -o -p maxclient%=20
   vmo -o -p maxperm%=20
   这个就可以实现释放非计算内存的目的。

当然你也可能通过减少业务量的方式降低内存的使用量,或者是增加内存来解决这个问题。收起
系统集成 · 2012-12-04
浏览4321
geniusgenius技术经理华洋广场
LS的回答很精彩!谢谢,好东西当然要收下,学习了。显示全部
LS的回答很精彩!谢谢,好东西当然要收下,学习了。收起
零售/批发 · 2011-07-02
浏览4538
o0呼噜Zzo0呼噜Zz系统工程师机密
说明]    进入一个串口的数据被设备驱动程序带进并存储到内核的一个缓冲器里,在一个用户程序来读取这些数据之前数据一直 保存在缓冲器里。TTY_OVERRUN错误不是tty的联接有问题,而是进程发送和接受数据的结果,tty只不过是建立了两个进程 之间通讯的联接。当一个进...显示全部
说明]
   进入一个串口的数据被设备驱动程序带进并存储到内核的一个缓冲器里,在一个用户程序来读取这些数据之前数据一直
保存在缓冲器里。TTY_OVERRUN错误不是tty的联接有问题,而是进程发送和接受数据的结果,tty只不过是建立了两个进程
之间通讯的联接。当一个进程发送数据太快而另一个进程读取的太慢,错误就会发生,在这种情况下,接受端数据堆积并且
溢出缓冲器,在缓冲器里老数据被推出新数据代替进入,错误就被记录到错误日志里。
[原因]                                                  
    数据(噪音,真实的数据等)进入串口,但是没有用户进程来读取它,因此溢出缓冲器;如果实际上有一个进程读取数
据,但是数据进来的比进程能够处理的速度快这种错误也会发生。这种溢出在集群环境里ttys用作HACMP的心跳联接的情况下
比较常见。
   它是由某些事情(可能是系统里一些别的驱动程序)把持着tty的中断以致于他们不能得到足够快地预期防止数据丢失而
引起的。
[ 解决方法]

    检查看是否有进程在这个tty上运行:

#fuser /dev/ttyX                                                                     
#ps -ef | grep ttyX
   如果没有进程正在这个TTY上运行:

1.可能端口连接有一个不该连接在上面的设备 ,移出这个设备;

2.设备可能损坏了,更换掉这个设备;

3.电缆可能损坏了,更换掉电缆;

4.线路中可能有电磁干扰,用一根屏蔽了的电缆更换现在的电缆或者是消除电磁干扰的因素。

   如果有一个进程正在这个tty上运行:

   使用 "lsattr -El ttyX" 或者使用 "smit tty" 命令进入smit菜单来显示tty的属性,在电缆允许的情况下更改流控制
属性(flow control)到“RTS"(这个tty连接的另一端也需要把流控制设定为RTS);
  如果流控制设定为RTS后仍然有溢出错误,调低速率到9600(这需要在连接的两端都要做),你能够通过以下命令来tty正在
运行的速率:
# stty -a < /dev/ttyX
  如果tty被配置为9600,但是stty命令输出显示它正在运行一个更高的速率,那么运行在这个tty上的进程正在改变了速率,
在HACMP环境里这个进程是hatsd.
  1)使用 HACMP/RSCT 配置步骤来降低线路速率到9600:
#smitty clstop - forced (在所有的节点上执行)
#smitty hacmp - configure cluster - cluster topology - configure network modules - chg/show a network module
                                                                        
在速率的参数区域更改为9600,然后同步拓扑结构,在所有节点上启动HA;
                                                                           
2)使用TTY配置步骤来降低"RECEIVE trigger level"参数到1:
         
# smitty tty                                                         
       Change / Show Characteristics of a TTY                             
       RECEIVE trigger level                              [1]

[附加信息]
  如果在检查和纠正了上面提到的所有内容还有TTY_OVERRUN错误发生,那么附加的推荐措施是:
增加进程的优先权,升级或者增加处理器,减轻系统的负载。收起
系统集成 · 2011-07-02
浏览4253

提问者

simon_cheng
系统运维工程师颀中科技(苏州)有限公司
擅长领域: 服务器AIXUnix

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2009-09-23
  • 关注会员:1 人
  • 问题浏览:66572
  • 最近回答:2016-02-25
  • X社区推广