零售/批发 aix系统报错诊断

p780报错EA88F829,E86653C3

---------------------------------------------------------------------------
LABEL:          J2_USERDATA_EIO
IDENTIFIER:     EA88F829

Date/Time:       Fri Mar 20 06:03:18 CST 2015
Sequence Number: 4304
Machine Id:      00F796994C00
Node Id:         dcc2
Class:           O
Type:            INFO
WPAR:            Global
Resource Name:   SYSJ2           

Description
USER DATA I/O ERROR

Probable Causes
ADAPTER HARDWARE OR MICROCODE
DISK DRIVE HARDWARE OR MICROCODE
SOFTWARE DEVICE DRIVER
STORAGE CABLE LOOSE, DEFECTIVE, OR UNTERMINATED


Recommended Actions

CHECK CABLES AND THEIR CONNECTIONS

INSTALL LATEST ADAPTER AND DRIVE MICROCODE

INSTALL LATEST STORAGE DEVICE DRIVERS

IF PROBLEM PERSISTS, CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
JFS2 MAJOR/MINOR DEVICE NUMBER
0032 0001
FILE SYSTEM DEVICE AND MOUNT POINT
/dev/lv_dcc_dbbak, /dbbak
---------------------------------------------------------------------------
LABEL:          J2_USERDATA_EIO
IDENTIFIER:     EA88F829

Date/Time:       Fri Mar 20 06:02:04 CST 2015
Sequence Number: 4303
Machine Id:      00F796994C00
Node Id:         dcc2
Class:           O
Type:            INFO
WPAR:            Global
Resource Name:   SYSJ2           

Description
USER DATA I/O ERROR

Probable Causes
ADAPTER HARDWARE OR MICROCODE
DISK DRIVE HARDWARE OR MICROCODE
SOFTWARE DEVICE DRIVER
STORAGE CABLE LOOSE, DEFECTIVE, OR UNTERMINATED


Recommended Actions

CHECK CABLES AND THEIR CONNECTIONS

INSTALL LATEST ADAPTER AND DRIVE MICROCODE

INSTALL LATEST STORAGE DEVICE DRIVERS

IF PROBLEM PERSISTS, CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
JFS2 MAJOR/MINOR DEVICE NUMBER
0032 0001
FILE SYSTEM DEVICE AND MOUNT POINT
/dev/lv_dcc_dbbak, /dbbak
---------------------------------------------------------------------------
LABEL:          LVM_IO_FAIL
IDENTIFIER:     E86653C3

Date/Time:       Fri Mar 20 06:01:08 CST 2015
Sequence Number: 4302
Machine Id:      00F796994C00
Node Id:         dcc2
Class:           H
Type:            PERM
WPAR:            Global
Resource Name:   LVDD            
Resource Class:  NONE
Resource Type:   NONE
Location:        

Description
I/O ERROR DETECTED BY LVM

Probable Causes
POWER, DRIVE, ADAPTER, OR CABLE FAILURE


Recommended Actions

RUN DIAGNOSTICS AGAINST THE FAILING DEVICE

Detail Data
PHYSICAL VOLUME DEVICE MAJOR/MINOR
8000 0010 0000 0060
ERROR CODE AS DEFINED IN sys/errno.h
          87
BLOCK NUMBER
             575213312
LOGICAL VOLUME DEVICE MAJOR/MINOR
8000 0032 0000 0001
PHYSICAL BUFFER TRANSACTION TIME
                     0
RESIDUAL COUNT
                131072
NUMBER OF BLOCKS
                131072
I/O TYPE
USER DATA     
SENSE DATA
0000 0000 0011 2487 00F7 9699 0000 4C00 0000 0138 C7CB 1704 00F7 9699 C7C8 D9D4
0000 0000 0000 0000
---------------------------------------------------------------------------
LABEL:          SC_DISK_ERR10
IDENTIFIER:     65DE6DE3

Date/Time:       Fri Mar 20 06:01:08 CST 2015
Sequence Number: 4301
Machine Id:      00F796994C00
Node Id:         dcc2
Class:           S
Type:            PERM
WPAR:            Global
Resource Name:   hdisk96         

Description
REQUESTED OPERATION CANNOT BE PERFORMED

Probable Causes
DASD DEVICE

User Causes
RESOURCE NOT AVAILABLE
UNAUTHORIZED ACCESS ATTEMPTED


Recommended Actions

FOR REMOVABLE MEDIA, CHANGE MEDIA AND RETRY

PERFORM PROBLEM DETERMINATION PROCEDURES

Failure Causes
MEDIA
DISK DRIVE


Recommended Actions

FOR REMOVABLE MEDIA, CHANGE MEDIA AND RETRY

PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
PATH ID
           0
SENSE DATA
0A00 2A00 2249 0F00 0001 0004 0000 0000 0000 0000 0000 0000 0118 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 117B 0009 0D40 0000 0000 0000 0000 0000 0000 0000 1083 0000
0000 003D 0017
参与12

11 同行回答

北京宝汇德 北京宝汇德 副总经理/副总裁 北京宝汇德技术服务有限公司
如果楼主所说的另外一台机器也有相同的错误,也访问的是hdisk96,估计硬盘损坏的可能性很大。显示全部
如果楼主所说的另外一台机器也有相同的错误,也访问的是hdisk96,估计硬盘损坏的可能性很大。 收起
系统集成 · 2015-03-31
浏览3912
北京荣歆咨询 北京荣歆咨询 系统架构师 北京荣歆咨询有限公司
报错就那几个,errpt的报错都让同事清了,这是他收集的,前天另一台机器报的错中没有EA88F829,最后将文件 ...落寞80 发表于 2015-3-20 11:25    您这里提到的“另一台机器”与这个P780是什么关系?都跑oracle吗?访问的也是hdisk96吗?报错的时间也是6:01吗?这个时间的cron...显示全部
报错就那几个,errpt的报错都让同事清了,这是他收集的,前天另一台机器报的错中没有EA88F829,最后将文件 ...
落寞80 发表于 2015-3-20 11:25



   您这里提到的“另一台机器”与这个P780是什么关系?都跑oracle吗?访问的也是hdisk96吗?报错的时间也是6:01吗?这个时间的cron方便贴一下吗 收起
IT咨询服务 · 2015-03-27
浏览5199
上海比佛 上海比佛 系统架构师 上海比佛信息有限公司
Failure CausesMEDIADISK DRIVE查看一下磁盘的状态以及文件系统和lv的状态看状态是否还正确,最好更换硬盘显示全部
Failure Causes
MEDIA
DISK DRIVE查看一下磁盘的状态以及文件系统和lv的状态看状态是否还正确,最好更换硬盘 收起
互联网服务 · 2015-03-26
浏览5092
ljq2184929 ljq2184929 系统运维工程师 中国建材
Failure Causes MEDIA DISK DRIVE这个报错主要是磁盘可能有坏块,但还没完全坏,可能硬盘上LED也不会有告警,但报错的频率太高了的话,建议更换新硬盘。显示全部
Failure Causes
MEDIA
DISK DRIVE

这个报错主要是磁盘可能有坏块,但还没完全坏,可能硬盘上LED也不会有告警,但报错的频率太高了的话,建议更换新硬盘。 收起
互联网服务 · 2015-03-26
浏览6085
caichalou caichalou 系统工程师 中国邮政储蓄银行
回复 7# 北京荣歆咨询     该问题每天早上在6点01分的时候就会报LVM_IO_FAIL的错误,其他时间都正常,所以感觉不太像是光纤线、FC卡、GBIC口的问题。实际上访问hdisk96的只有oracle归档文件备份操作。查看了cron列表,那个时间段没有其他用户访问该hdisk96磁盘,所以...显示全部
回复 7# 北京荣歆咨询


    该问题每天早上在6点01分的时候就会报LVM_IO_FAIL的错误,其他时间都正常,所以感觉不太像是光纤线、FC卡、GBIC口的问题。实际上访问hdisk96的只有oracle归档文件备份操作。查看了cron列表,那个时间段没有其他用户访问该hdisk96磁盘,所以感觉是磁盘锁的可能性也不大。而且常常因为该问题直接导致备份失败。另外这个问题这段时间出现挺频繁的,直接影响备份任务的顺利完成。 收起
银行 · 2015-03-26
浏览5274
北京荣歆咨询 北京荣歆咨询 系统架构师 北京荣歆咨询有限公司
报错就那几个,errpt的报错都让同事清了,这是他收集的,前天另一台机器报的错中没有EA88F829,最后将文件 ...落寞80 发表于 2015-3-20 11:25 没报EA88F829也许是因为IO很快恢复正常了,所以只是LVM级别报错了,fs级别没报。即使报EA88F829也是Info级别的,FS应该没有损坏。这种偶然...显示全部
报错就那几个,errpt的报错都让同事清了,这是他收集的,前天另一台机器报的错中没有EA88F829,最后将文件 ...
落寞80 发表于 2015-3-20 11:25


没报EA88F829也许是因为IO很快恢复正常了,所以只是LVM级别报错了,fs级别没报。即使报EA88F829也是Info级别的,FS应该没有损坏。
这种偶然出现,然后马上就自动恢复正常的故障很难定位的。我觉得你这个最可能的是SAN链路问题,建议查一下光纤线、FC卡、GBIC口等。 收起
IT咨询服务 · 2015-03-23
浏览5161
落寞80 落寞80 系统工程师 北京物美集团
明白。待会让HP的人看看,报错中的hdisk96仅仅是一个lun,就一个节点在访问显示全部
明白。待会让HP的人看看,报错中的hdisk96仅仅是一个lun,就一个节点在访问 收起
零售/批发 · 2015-03-20
浏览5267
zcome zcome 系统工程师 zzz
回复 4# 落寞80     为啥让你查存储呢,就是因为你光本机no_reserve没用,可能别的节点能访问,加上锁了,要是还能读写,就把你文件系统写坏了。。。显示全部
回复 4# 落寞80


    为啥让你查存储呢,就是因为你光本机no_reserve没用,可能别的节点能访问,加上锁了,要是还能读写,就把你文件系统写坏了。。。 收起
IT咨询服务 · 2015-03-20
浏览5354
落寞80 落寞80 系统工程师 北京物美集团
报错就那几个,errpt的报错都让同事清了,这是他收集的,前天另一台机器报的错中没有EA88F829,最后将文件系统umount,在mount了下,客户不让fsck,磁盘的属性也改为了no_reserve了,应该不会锁吧。今天另一台机器又报错,还是HP的盘,多了个EA88F829。...显示全部
报错就那几个,errpt的报错都让同事清了,这是他收集的,前天另一台机器报的错中没有EA88F829,最后将文件系统umount,在mount了下,客户不让fsck,磁盘的属性也改为了no_reserve了,应该不会锁吧。今天另一台机器又报错,还是HP的盘,多了个EA88F829。 收起
零售/批发 · 2015-03-20
浏览5289
zcome zcome 系统工程师 zzz
你这个是磁盘锁导致的,看看存储盘是不是在别的节点也能访问。 文件系统可能有问题了也,fsck修复试试。显示全部
你这个是磁盘锁导致的,看看存储盘是不是在别的节点也能访问。 文件系统可能有问题了也,fsck修复试试。 收起
IT咨询服务 · 2015-03-20
浏览5378

提问者

落寞80
系统工程师 北京物美集团
评论68

问题状态

  • 发布时间:2015-03-20
  • 关注会员:1 人
  • 问题浏览:23675
  • 最近回答:2015-03-31
  • X社区推广