AIX系统维护是什么？要做哪些工作？

应用维护是一项细致的工作，在工作中除了要求技术人员工作严谨、认真负责外，还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验。随着工商银行两大数据中心的建立，工行核心业务数据集中到数据中心，各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史...显示全部

应用维护是一项细致的工作，在工作中除了要求技术人员工作严谨、认真负责外，还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验。随着工商银行两大数据中心的建立，工行核心业务数据集中到数据中心，各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史数据查询系统等外围系统的维护工作方面，其中ＡＩＸ操作系统在工行的使用比较广泛。在应用维护方面，工行使用ＡＩＸ操作系统的应用主要有：综合前置系统、跨行支付系统、客户对账系统、历史数据查询系统、国际业务结算系统５个应用系统。通过几年来的工作实践，我们积累了一些ＡＩＸ操作系统环境下应用系统的维护及性能优化的经验，归纳为５个方面，供同行借鉴。
　　
　　一、ＡＩＸ系统数据安全措施
　　在ＩＢＭ小型机硬件配置期间，就应该考虑数据的安全性，系统资源的配置要满足容错处理的要求。主要应考虑以下几点：
　　①生产主机发生硬件故障后，备机可以马上自动接管应用系统；
　　②提高操作系统的硬件冗余，尽量减少单点故障对系统的影响；
　　③加强系统备份，减少系统版本升级造成的影响。
　　针对以上要求，可以采取一些安全措施，主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用。我们的经验是：把ＡＩＸ操作系统和ＨＡＣＭＰ（ＨｉｇｈＡｖａｉｌａｂｉｌｉｔｙＣｌｕｓｔｅｒＭｕｌｔｉ－Ｐｒｏｃｅｓｓｉｎｇ）软件安装在ｒｏｏｔｖｇ上，因为ｒｏｏｔｖｇ损坏，系统将无法运行，即使通过备份磁带恢复，也会造成系统停机。因此在磁盘空间充裕的情况下，可考虑对ｒｏｏｔｖｇ作镜像。具体做法是将主机的两块内置硬盘做ｒｏｏｔｖｇ镜像，这样可提高系统的安全性，防止单块硬盘损坏对系统的影响，即使内置硬盘坏了一块，系统仍可正常运行。在建立ｒｏｏｔｖｇ镜像时，应尽量使用连接在不同ＳＣＳＩ上的硬盘，以做到负载均衡。另外，为提高系统的容错能力，可对磁盘阵列上的硬盘进行镜像配置（ＲＡＩＤ０）或ＲＡＩＤ５冗余配置，配置为ｄａｔａｖｇ，在上面安装数据库和应用程序。为提高节点可靠性，可搭建ＨＡＣＭＰ集群环境，做到双机热备，即在２台互为备份的主机上配置ＨＡＣＭＰ参数，满足系统热备要求。在日常操作方面，要做好系统备份工作，定期对生产机做两个或两个以上的介质备份。
　　
　　１．ｒｏｏｔｖｇ的配置
　　将ｈｄｉｓｋ０和ｈｄｉｓｋ１做成ｍｉｒｒｏｒ，配置为ｒｏｏｔｖｇ。
　　①把ｈｄｉｓｋ０、ｈｄｉｓｋ１加到ｒｏｏｔｖｇ：ｓｍｉｔｔｙｅｘｔｅｎｔｖｇｈｄｉｓｋ１、ｈｄｉｓｋ０ →ｒｏｏｔｖｇ。
　　②做ｍｉｒｒｏｒ：ｍｉｒｒｏｒｖｇ－ｃ２ｒｏｏｔｖｇ。
　　③在ｈｄｉｓｋ０、ｈｄｉｓｋ１上创建ｂｏｏｔＩＭＡＧＥ：ｂｏｓｂｏｏｔ－ａｄｈｄｉｓｋ０，ｂｏｓｂｏｏｔ－ａｄｈｄｉｓｋ１。
　　④改变启动设备的顺序：ｂｏｏｔｌｉｓｔ－ｍｎｏｒｍａｌｈｄｉｓｋ０，ｈｄｉｓｋ１ｃｄ０
　　
　　２．ＨＡＣＭＰ工作原理
　　ＨＡＣＭＰ主要是对群集（ｃｌｕｓｔｅｒ）资源的管理，根据应用复杂程度和配置的不同，其群集资源的接管时间在３０秒到３００秒不等，完全不需要人工干预。一个群集中的资源通常包括：应用程序、硬盘、卷组（ＶＧ）、文件系统、ＮＦＳ文件系统、ＩＰ地址等。资源分属三类资源组（ＲｅｓｏｕｒｃｅＧｒｏｕｐ）：层递式（Ｃａｓｃａｄｉｎｇ）、替换式（Ｒｏｔａｔｉｎｇ）、同时存取式（Ｃｏｎｃｕｒｒｅｎｔ）。不同类型的资源组对应不同的接管方式。一个群集中可以有几个资源组，它们可以分别是不同类型，因此，资源接管的方式可以多种多样，配置十分灵活。
　　我们一般采用的是层递式方式，即热备份工作方式，其工作原理是：ＮｏｄｅＡ和ＮｏｄｅＢ都是资源组ａ的成员，该资源组ａ被设置成层递式方式，ＮｏｄｅＡ对其拥有最高优先级。因此ＮｏｄｅＡ在群集中处于ａｃｔｉｖｅ状态时，它会控制资源组ａ中的所有资源，此时ＮｏｄｅＢ处于闲置（ｉｄｌｅ）状态，仅当ＮｏｄｅＡｄｏｗｎ掉时，ＮｏｄｅＢ才会接管资源组ａ，一旦ＮｏｄｅＡ重新加入群集，ＮｏｄｅＢ将释放资源组ａ?ＮｏｄｅＡ重新取得控制权。ＮｏｄｅＢ发生任何故障，不会造成任何影响。
　　
　　二、ＡＩＸ系统维护经验
　　
　　１．故障信息的收集
　　收集故障信息对于判断、诊断故障原因，修复系统非常重要。我们通过检查系统错误报告?ｅｒｒｏｒｌｏｇ?、发给ｒｏｏｔ用户的错误报告?ｍａｉｌ?和检查ｈａｃｍｐ．ｏｕｔ?ｓｍｉｔ．ｌｏｇ?ｂｏｏｔ．ｌｏｇ等内容来判断系统是否发生故障，根据故障信息进行相应的处理。
　　（１）系统故障记录
　　ｅｒｒｄｅｍｏｎ进程在系统启动时自动运行，记录包括硬件、软件及其他操作信息，故障记录文件为/ｖａｒ/ａｄｍ/ｒａｓ/ｅｒｒｌｏｇ，可备份下来或拷贝到别的机器上分析，使用ｅｒｒｐｔ命令（普通用户权限也可使用）。
　　＃ｅｒｒｐｔ｜ｍｏｒｅ列出简短出错信息
　　＃ｅｒｒｐｔ－ｄＨ列出所有硬件出错信息
　　＃ｅｒｒｐｔ－ｄＳ列出所有软件出错信息
　　＃ｅｒｒｐｔ－ａｊＥＲＲＯＲ＿ＩＤ列出详细出错信息
　　（２）控制面板上的ＬＥＤ代码
　　（３）ＳＭＳ（ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＳｅｒｖｉｃｅ）故障记录
　　当主控台出现键盘图标后（ＬＥＤ显示“Ｅ１Ｆ１时”）按１键。选择“Ｕｔｉｌｉｔｉｅｓ”，选择“ＥｒｒｏｒＬｏｇ”，抄下８位故障代码。
　　（４）Ｍａｉｌ检查
　　系统出现故障后会向ｒｏｏｔ用户发ｍａｉｌ，报告出错信息。通常系统出现故障后没有进行检查修复，系统还会定时以ｍａｉｌ方式提醒ｒｏｏｔ用户。
　　（５）运行故障诊断程序
　　对系统硬件进行检查和诊断，当发现有硬件故障时应立即使用ｄｉａｇ。
　　＃ｄｉａｇ
　　＞选高级诊断（ＡｄｖａｎｃｅｄＤｉａｇｎｏｓｔｉｃ）
　　＞选问题诊断（ＰｒｏｂｌｅｍＤｅｔｅｒｍｉｎａｔｉｏｎ）或选系统检查（ＳｙｓｔｅｍＶｅｒｉｆｉｃａｔｉｏｎ）
　　ｄｉａｇ运行后会给出ＳＲＮ代码、故障设备名称及百分比数、地址代码等。
　　（６）其他用于收集系统信息的命令
　　ｌｓｄｅｖ－Ｃ系统设备信息
　　ｌｓｐｖ查看物理卷信息
　　ｌｓｖｇ查看卷组信息
　　ｌｓｌｐｐ查看文件组信息
　　ｌｓａｔｔｒ查看设备参数设置
　　ｌｓｃｆｇ查看ＶＰＤ（ＶｉｒｔｕａｌＰｒｏｄｕｃｔＤａｔａ）信息
　　
　　２．系统硬件故障定位
　　ＩＢＭ小型机硬件故障定位方法包括小型机机柜上的显示面板上的Ｃｈｅｃｋｐｏｉｎｔｓ信息，ＥｒｒｏｒＣｏｄｅ和ＳＲＮｓ。Ｃｈｅｃｋｐｏｉｎｔｓ检查点是系统加电ＣＭＯＳ初始化程序（ＩＰＬ，ＩｎｉｔｉａｌＰｒｏｇｒａｍＬｏａｄ）运行后显示在机柜的显示面板上一系列信息。
　　ＩＰＬ流程如下：当系统加电后，自动进入ＩＰＬ流程，ＩＰＬ流程包括４个步骤，
　　①ＳｅｒｖｉｃｅＰｒｏｃｅｓｓｏｒ的初始化，始于系统加电，直到ＯＫ显示在机柜上的显示面板上为止。这个步骤会显示８ｘｘｘ或９ｘｘｘｃｈｅｃｋｐｏｉｎｔｓ代码。
　　②由ＳｅｒｖｉｃｅＰｒｏｃｅｓｓｏｒ引导的硬件初始化，始于按下机柜上的白色电源开关。这个步骤会显示９ｘｘｘｃｈｅｃｋｐｏｉｎｔｓ。“９１ＦＦ”是最后的代码，标志着第３步的开始。
　　③系统固件的初始化，一个系统处理器接管控制并继续初始化系统资源，这个步骤会显示Ｅｘｘｘ。“Ｅ１０５”是最后的代码，标志着第４步骤ＡＩＸ启动的开始。在这个过程中还会显示各种位置码（位置码代表着系统的每一个部分）。
　　④ＡＩＸ启动，当ＡＩＸ开始启动时，显示面板上的代码为０ｘｘｘ，同时位置码会出现在第二行。当ＡＩＸ的登录窗口出现在控制台上时，第４步骤结束，同时显示面板上再无任何信息显示。
　　当系统运行发现错误时，ＳＲＮｓ码（Ｓｅｒｖｉｃｅｒｅｑｕｅｓｔｎｕｍｂｅｒｓ，服务请求码）会以ｘｘｘ－ｘｘｘ的形式显示在显示面板上，同时在ＡＩＸ的ｅｒｒｏｒｌｏｇ中也会进行登记；当ＳＳＡ磁盘柜出现故障时，在磁盘柜前面板的液晶显示屏上会显示相应的ＳＲＮｓ，同时黄色的显示灯会闪动，在ＡＩＸ的ｅｒｒｏｒｌｏｇ中会登记相应错误信息，在出现问题后记录下代码，并告之ＩＢＭ公司解决。
　　
　　３．软件问题处理
　　软件故障情况错综复杂，下面列举几个常见的故障处理方法。
　　（１）文件系统空间不够
　　查看有没有“满”的文件系统。特别是/、/ｖａｒ、/ｔｍｐ，不要超过９０％。文件系统满可导致系统不能正常工作，尤其是ＡＩＸ的基本文件系统。如/ ?根文件系统?满则会导致用户不能登录。用ｄｆ－ｋ查看。
　　＃ｄｆ－ｋ查看ＡＩＸ的基本文件系统
　　除/ｕｓｒ文件系统，其他文件系统都不应太满，一般不超过８０％。
　　处理方法１：删除垃圾文件
　　＃ｄｕ－ｓｋ ? ｜ｓｏｒｔ－ｒｎ｜ｈｅａｄ
　　查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件（要区分哪些目录是文件系统的ｍｏｕｎｔｐｏｉｎｔ，哪些是文件系统的子目录）。删除文件，释放空间。有时删除文件后空间并不马上释放，这是由于删除的文件正被某个程序打开。只有当这个程序停止后，空间才释放，有时甚至需要重启系统。
　　处理方法２：增加文件系统大小
　　＃ｓｍｉｔｔｙｃｈｊｆｓ
　　只要卷组?ＶＧ?中有剩余空间，文件系统可以在任何时候加大。
　　（２）检查文件系统的完整性
　　＃ｕｍｏｕｎｔｆｉｌｅｓｙｓｔｅｍ＿ｎａｍｅ
　　＃ｆｓｃｋ－ｙｆｉｌｅｓｙｓｔｅｍ＿ｎａｍｅ
　　注意：文件系统必须先ｕｍｏｕｎｔ，再做检查和修复，否则将导致未知的后果。
　　（３）查看卷组信息
　　查看是否有“ｓｔａｌｅ”状态的逻辑卷。若有，用ｓｙｎｃｖｇ命令修复。
　　（４）检查内存交换区使用率
　　检查使用率是否超过７０％，若超过则用ｃｈｐｓ－ｓＸｐｇｎａｍｅ增加Ｘ个ＰＰ或用ｍｋｐｓ－ａ－ｎ－ｓＸｍｙｖｇ在ｍｙｖｇ上增加一个ＰＰ数为Ｘ的内存交换区。
　　（５）小型机内存泄漏问题
　　小型机出现内存泄漏，即系统或应用进程无法将使用过的内存释放，使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法ＦＯＲＫ子进程，就会造成系统瘫痪。通常我们可以用ｐｓ和ｓａｒ命令来查看小型机内存和ＣＰＵ占用率的大概情况以及各进程的内存和ＣＰＵ占用率的发展趋势。使用ｐｓ命令，可查看内存和ＣＰＵ占用率的基本情况。找出其中占用内存数不断变大的进程，这个进程可能就已经发生了内存泄漏。
　　
　　４．ＩＢＭＨＡＣＭＰ双机热备系统的管理和维护
　　（１）ＨＡＣＭＰ双机系统的启动
　　以ｒｏｏｔ用户身份分别进入系统各节点，执行＃ｓｍｉｔｃｌｓｔａｒｔ命令。
　　（２）ＨＡＣＭＰ双机系统的关闭
　　以ｒｏｏｔ用户身份分别进入系统各节点，执行＃ｓｍｉｔｃｌｓｔｏｐ命令。
　　（３）查询ＨＡＣＭＰ双机系统的状态
　　在双机系统的运行中，操作员只有知道双机系统的当前状态，才有可能对双机系统出现的异常情况进行恢复处理，保证双机系统的高可用性和高容错性。查询ＨＡＣＭＰ双机系统的状态，以ｒｏｏｔ用户身份进入需要查询的节点，用＃ｌｓｓｒｃ－ｇｃｌｕｓｔｅｒ命令检查ＨＡＣＭＰ双机软件在该节点是否已启动，系统显示３个ａｃｔｉｖｅ的信息，则说明ＨＡＣＭＰ双机软件已正常启动。
　　在确认双机软件ＨＡＣＭＰ正常启动的情况下，在命令行执行＃ /ｕｓｒ/ｓｂｉｎ/ｃｌｕｓｔｅｒ/ｃｌｓｔａｔ－ａ命令查看双机系统的当前状态。
　　收起

关注2

参与117

查看其它 114 个回答ldj8750的回答

ldj8750系统运维工程师HYPTER-TECH

容很详细啊灰常有帮助

互联网服务 · 2013-05-17

AIX系统维护是什么？要做哪些工作？

查看其它 114 个回答ldj8750的回答

回答者

ldj8750 最近回答过的问题

回答状态