互联网服务tdpo备份故障

TDPO备份故障.

这个问题很急, 以下内容为环境描述和自己分析的内容, 希望大家慷慨解答, 谢谢!!!!------------------------------------------------------------------------------------------------------环境描述:1. TSM Server: 6.2.7(RHEL6.5)2. TDPO:5.5(RHEL7)3. Oracle为RAC环...显示全部

这个问题很急, 以下内容为环境描述和自己分析的内容, 希望大家慷慨解答, 谢谢!!!!


------------------------------------------------------------------------------------------------------

环境描述:

1. TSM Server: 6.2.7(RHEL6.5)

2. TDPO:5.5(RHEL7)

3. Oracle为RAC环境, 版本为11.2.0.4.0,  数据库容量为5T

4. TSM Server和San Agent均设置COMMTIMEOUT    60000 和IDLETIMEOUT    6000

5. TDPO节点也设置了maxnummp=3 txngroupmax=1000

6. TDPO客户端的系统sysctl参数:

fs.suid_dumpable = 1

fs.aio-max-nr = 1048576

fs.file-max = 6815744

kernel.shmall = 33554432

kernel.shmmax = 137438953472

kernel.shmmni = 4096

kernel.sem = 250 32000 100 128

net.ipv4.ip_local_port_range = 9000 65500

net.core.rmem_default = 1048576

net.core.rmem_max = 4194304

net.core.wmem_default = 262144

net.core.wmem_max = 1048576

vm.min_free_kbytes = 524288


7. 备份脚本:

run {

allocate channel t1 type 'sbt_tape' parms 'ENV=(tdpo_optfile=/usr/tivoli/tsm/client/oracle/bin64/tdpo.opt)';

set limit channel t1 kbytes 1900000;

allocate channel t2 type 'sbt_tape' parms 'ENV=(tdpo_optfile=/usr/tivoli/tsm/client/oracle/bin64/tdpo.opt)';

set limit channel t2 kbytes 1900000;

backup incremental level 0 skip inaccessible format='db_%d_%u_%s_%T'

(database include current controlfile);

sql 'alter system archive log current';

backup format '%t%s%d.dbf' archivelog all delete input;

release channel t1;

release channel t2;

}


8. 备份成功了一部分文件, 容量大约600G.


--------------------------------------------------------------------------------------------------------------

故障描述:

RMAN报错:

RMAN-03009: failure of backup command on t2 channel at 09/01/2016 03:46:49

ORA-19513: failed to identify sequential file

ORA-27206: requested file not found in media management catalog

ORA-19502: write error on file "db_QRCODE_99rem2rr_297_20160901",

block number 95488865 (block size=8192)

ORA-27030: skgfwrt: sbtwrite2 returned error

ORA-19511: Error received from media manager layer, error text:

ANS1235E (RC-72) An unknown system error has occurred from which TSM cannot recover.


TSM报错:

ANR0538I A resource waiter has been aborted.

ANR0490I Canceling session 187 for nodeQRDB1_DB (TDPO LinuxAMD64) . (SESSION: 143)

ANR0524W Transaction failed for session 187 for node QRDB1_DB (TDPO LinuxAMD64) - data transfer

interrupted.

ANR0483W Session 187 for node QRDB1_DB (TDPO LinuxAMD64) terminated - forced by administrator.


TDPO报错:

cuConfirm: Received rc: -72 trying to receive ConfirmResp verb

ANS1235E An unknown system error has occurred from which TSM cannot recover.

ANS1235E An unknown system error has occurred from which TSM cannot recover.

sessSendVerb: Error sending Verb, rc: -71

ANS4994S TDP for Oracle: (86948): =>(qrdb1_db) ANU2602E The object /adsmorc//db_QRCODE_99rem2rr_297_20160901 was not found on the TSM Server TDPO LinuxAMD64 ANU0599


Q stgpool:

tsm: TSMSERVER>q stgpool

Session established with server TSMSERVER: Linux/x86_64

  Server Version 6, Release 2, Level 7.0

  Server date/time: 09/02/2016 11:48:05  Last access: 09/02/2016 10:45:22

Storage         Device          Estimated       Pct       Pct     High     Low     Next Stora-

Pool Name       Class Name       Capacity      Util      Migr      Mig     Mig     ge Pool   

                                                                   Pct     Pct     

-----------     ----------     ----------     -----     -----     ----     ---     -----------

ARCHIVEPOOL     DISK                0.0 M       0.0       0.0       90      70               

BACKUPPOOL      DISK                0.0 M       0.0       0.0       90      70               

DB_STGP         LTO_DEV1         91,553 G       1.3      13.3       90      70               

FILE_STGP       LTO_DEV0         73,242 G       0.0      33.3       90      70               

SPACEMGPOOL     DISK                0.0 M       0.0       0.0       90      70


-----------------------------------------------------------------------------------------------------------------


自己判断结果:

1. 环境hosts记录正常;

2. ./sbttest test 结果正常, 为:The sbt function pointers are loaded from libobk.so library.

-- sbtinit succeeded

3. 带库为TS3100双驱动, 硬件正常, TSM备份的时候没有报相关硬件问题;

4. stgpool空间足够, path正常.

收起
参与7

返回powertiandi的回答

powertiandipowertiandi  系统架构师 , 李宁(中国)体育用品有限公司

前端时间遇到一个类似这方面的问题,但是报错很有规律性,经过多次诊断问题发现最终原因:

很早以前一个业务系统申请了该备份node 节点的ip地址,原以为业务系统不用了,所以这个备份ip使用起来,最近发现在备份的过程当中进程会出现类似网络错误,后来经过多方检查发现,原有申请的业务系统现在还是不是在使用,使用完毕后关闭,所以导致以上现象。

很奇葩。

互联网服务 · 2016-09-02
浏览2272
  • 您那个环境也一样吗? 我这边是归档日志能备份, 数据库就备份不了. 而且IP我确定没问题
    2016-09-02

回答者

powertiandi
系统架构师李宁(中国)体育用品有限公司
擅长领域: 存储服务器灾备

powertiandi 最近回答过的问题

回答状态

  • 发布时间:2016-09-02
  • 关注会员:2 人
  • 回答浏览:2272
  • X社区推广