AIX系统维护是什么?要做哪些工作?

应用维护是一项细致的工作,在工作中除了要求技术人员工作严谨、认真负责外,还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验。随着工商银行两大数据中心的建立,工行核心业务数据集中到数据中心,各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史...显示全部
应用维护是一项细致的工作,在工作中除了要求技术人员工作严谨、认真负责外,还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验。随着工商银行两大数据中心的建立,工行核心业务数据集中到数据中心,各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史数据查询系统等外围系统的维护工作方面,其中AIX操作系统在工行的使用比较广泛。在应用维护方面,工行使用AIX操作系统的应用主要有:综合前置系统、跨行支付系统、客户对账系统、历史数据查询系统、国际业务结算系统5个应用系统。通过几年来的工作实践,我们积累了一些AIX操作系统环境下应用系统的维护及性能优化的经验,归纳为5个方面,供同行借鉴。
  
  一、AIX系统数据安全措施
   在IBM小型机硬件配置期间,就应该考虑数据的安全性,系统资源的配置要满足容错处理的要求。主要应考虑以下几点:
  ①生产主机发生硬件故障后,备机可以马上自动接管应用系统;
  ②提高操作系统的硬件冗余,尽量减少单点故障对系统的影响;
  ③加强系统备份,减少系统版本升级造成的影响。
   针对以上要求,可以采取一些安全措施,主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用。我们的经验是:把AIX操作系统和HACMP(High Availability Cluster Multi-Processing)软件安装在rootvg上,因为rootvg损坏,系统将无法运行,即使通过备份磁带恢复,也会造成系统停机。因此在磁盘空间充裕的情况下,可考虑对rootvg作镜像。具体做法是将主机的两块内置硬盘做rootvg镜像,这样可提高系统的安全性,防止单块硬盘损坏对系统的影响,即使内置硬盘坏了一块,系统仍可正常运行。在建立rootvg镜像时,应尽量使用连接在不同SCSI上的硬盘,以做到负载均衡。另外,为提高系统的容错能力,可对磁盘阵列上的硬盘进行镜像配置(RAID0)或RAID5冗余配置,配置为datavg,在上面安装数据库和应用程序。为提高节点可靠性,可搭建HACMP集群环境,做到双机热备,即在2台互为备份的主机上配置HACMP参数,满足系统热备要求。在日常操作方面,要做好系统备份工作,定期对生产机做两个或两个以上的介质备份。
  
  1.rootvg的配置
   将hdisk0和hdisk1做成mirror,配置为rootvg。
  ①把hdisk0、hdisk1加到rootvg:smitty extentvg hdisk1、hdisk0 →rootvg。
  ②做mirror:mirrorvg -c 2 rootvg。
  ③在hdisk0、hdisk1上创建boot IMAGE:bosboot -ad hdisk0,bosboot -ad hdisk1。
  ④改变启动设备的顺序:bootlist -m normal hdisk0,hdisk1 cd0
  
  2.HACMP工作原理
   HACMP主要是对群集(cluster)资源的管理,根据应用复杂程度和配置的不同,其群集资源的接管时间在30秒到300秒不等,完全不需要人工干预。一个群集中的资源通常包括:应用程序、硬盘、卷组(VG)、文件系统、NFS文件系统、IP地址等。资源分属三类资源组(Resource Group):层递式(Cascading)、替换式(Rotating)、同时存取式(Concurrent)。不同类型的资源组对应不同的接管方式。一个群集中可以有几个资源组,它们可以分别是不同类型,因此,资源接管的方式可以多种多样,配置十分灵活。
   我们一般采用的是层递式方式,即热备份工作方式,其工作原理是:NodeA和NodeB都是资源组a的成员,该资源组a被设置成层递式方式,NodeA对其拥有最高优先级。因此NodeA在群集中处于active状态时,它会控制资源组a中的所有资源,此时NodeB处于闲置(idle)状态,仅当NodeA down掉时,NodeB才会接管资源组a,一旦NodeA重新加入群集,NodeB将释放资源组a?NodeA重新取得控制权。NodeB发生任何故障,不会造成任何影响。
  
  二、AIX系统维护经验
  
  1.故障信息的收集
   收集故障信息对于判断、诊断故障原因,修复系统非常重要。我们通过检查系统错误报告?errorlog?、发给root用户的错误报告?mail?和检查hacmp.out?smit.log?boot.log等内容来判断系统是否发生故障,根据故障信息进行相应的处理。
   (1)系统故障记录
   errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息,故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析,使用errpt 命令(普通用户权限也可使用)。
   #errpt |more 列出简短出错信息
    #errpt -d H 列出所有硬件出错信息
   #errpt -d S 列出所有软件出错信息
   #errpt -aj ERROR_ID 列出详细出错信息
   (2)控制面板上的LED 代码
   (3)SMS(System Management Service)故障记录
   当主控台出现键盘图标后(LED显示“E1F1时”)按1键。选择“Utilities”,选择“Error Log”,抄下8位故障代码。
   (4) Mail检查
   系统出现故障后会向root用户发mail,报告出错信息。通常系统出现故障后没有进行检查修复,系统还会定时以mail方式提醒root用户。
   (5)运行故障诊断程序
   对系统硬件进行检查和诊断,当发现有硬件故障时应立即使用diag。
   #diag
   > 选高级诊断(Advanced Diagnostic)
   > 选问题诊断(Problem Determination)或选系统检查(System Verification)
   diag运行后会给出SRN代码、故障设备名称及百分比数、地址代码等。
   (6)其他用于收集系统信息的命令
   lsdev -C 系统设备信息
   lspv 查看物理卷信息
   lsvg 查看卷组信息
   lslpp 查看文件组信息
   lsattr 查看设备参数设置
   lscfg 查看VPD(Virtual Product Data)信息
  
  2.系统硬件故障定位
      IBM 小型机硬件故障定位方法包括小型机机柜上的显示面板上的Checkpoints信息,Error Code和SRNs。Checkpoints检查点是系统加电CMOS初始化程序   (IPL,Initial Program Load)运行后显示在机柜的显示面板上一系列信息。
      IPL流程如下:当系统加电后,自动进入IPL流程,IPL流程包括4个步骤,
  ①Service Processor的初始化,始于系统加电,直到OK显示在机柜上的显示面板上为止。这个步骤会显示8xxx或9xxx checkpoints代码。
  ②由Service Processor引导的硬件初始化,始于按下机柜上的白色电源开关。这个步骤会显示9xxx checkpoints。“91FF”是最后的代码,标志着第3步的开始。
  ③系统固件的初始化,一个系统处理器接管控制并继续初始化系统资源,这个步骤会显示Exxx。“E105”是最后的代码,标志着第4步骤AIX启动的开始。在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)。
  ④AIX启动,当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时,第4步骤结束,同时显示面板上再无任何信息显示。
      当系统运行发现错误时,SRNs码(Service request numbers,服务请求码)会以xxx-xxx的形式显示在显示面板上,同时在AIX的errorlog中也会进行登记;当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的errorlog中会登记相应错误信息,在出现问题后记录下代码,并告之IBM公司解决。
  
  3.软件问题处理
   软件故障情况错综复杂,下面列举几个常见的故障处理方法。
   (1)文件系统空间不够
   查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ ?根文件系统?满则会导致用户不能登录。用df-k查看。
   # df -k 查看AIX的基本文件系统
   除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
   处理方法1:删除垃圾文件
   # du -sk ? |sort -rn |head
   查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)。删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于删除的文件正被某个程序打开。只有当这个程序停止后,空间才释放,有时甚至需要重启系统。
   处理方法2:增加文件系统大小
   # smitty chjfs
   只要卷组?VG?中有剩余空间,文件系统可以在任何时候加大。
   (2)检查文件系统的完整性
   # umount filesystem_name
   # fsck -y filesystem_name
   注意:文件系统必须先umount,再做检查和修复,否则将导致未知的后果。
   (3)查看卷组信息
   查看是否有“stale”状态的逻辑卷。若有,用syncvg命令修复。
   (4)检查内存交换区使用率
   检查使用率是否超过70%,若超过则用chps-sX pgname增加X个PP或用 mkps -a -n -sX myvg在myvg上增加一个PP数为X的内存交换区。
   (5)小型机内存泄漏问题
   小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。使用ps命令,可查看内存和CPU占用率的基本情况。找出其中占用内存数不断变大的进程,这个进程可能就已经发生了内存泄漏。
  
  4.IBM HACMP 双机热备系统的管理和维护
   (1)HACMP 双机系统的启动
   以root用户身份分别进入系统各节点,执行# smit clstart命令。
   (2)HACMP 双机系统的关闭
   以root用户身份分别进入系统各节点,执行# smit clstop命令。
   (3)查询HACMP 双机系统的状态
   在双机系统的运行中,操作员只有知道双机系统的当前状态,才有可能对双机系统出现的异常情况进行恢复处理,保证双机系统的高可用性和高容错性。查询HACMP双机系统的状态,以root用户身份进入需要查询的节点,用# lssrc -g cluster命令检查HACMP双机软件在该节点是否已启动,系统显示3个active的信息,则说明HACMP 双机软件已正常启动。
   在确认双机软件HACMP 正常启动的情况下,在命令行执行# /usr/sbin/cluster/clstat -a命令查看双机系统的当前状态。
  收起
参与117

查看其它 114 个回答ZYH9988的回答

ZYH9988ZYH9988系统管理员VS
AIX chfs命令使用
2010-12-16 10:16
chfs 命令(增加空间,只加不能减)
用途
更改文件系统的属性。
语法
chfs [ -n NodeName ] [ -m NewMountPoint ] [ -u MountGroup ] [ -A { yes | no } ] [ -p { ro | rw } ] [ -t { yes | no } ] [ -a Attribute=Value ] [ -d Attribute ] FileSystem
描述
chfs 命令更改文件系统的属性。新的安装点、自动安装、许可权以及文件系统大小都可以被设置或更改。FileSystem 参数指定文件系统的名称,表示为安装点。
有些文件系统的属性是在创建该文件系统时设置的,因而不能更改。对于日志文件系统(JFS),这样的属性包括段的大小、块的大小、每个 i 节点的字节数、压缩以及最小文件系统大小。对于增强的日志文件系统(JFS2),不能更改块的大小。
可以使用基于 Web 的系统管理器中的“文件系统”应用程序来更改文件系统特征。还可以使用系统管理界面程序(SMIT)smit chfs 快速路径来运行此命令。
注:
要获取有关更改条带逻辑卷上的文件系统的信息,请参考 chlv 文档中的 条带逻辑卷上的文件系统 文件。
标志
-a Attribute=Value
    指定 Attribute=Value 对;它依赖于虚拟文件系统类型。要指定多个 Attribute=Value 对,需提供多个 -a Attribute=Value 参数。
    以下属性/值对是特别针对日志文件系统(JFS)的:
    -a Size=NewSize
        指定日志文件系统的大小。可以 512 字节块、兆字节或吉字节等单位来指定大小。如果 Value 具有 M 后缀,它将被解释为以兆字节为单位。如果 Value 具有 G 后缀,它将被解释为以吉字节为单位。如果 Value 以 + 开头,它将被解释为以指定量来增加文件系统大小的请求。如果通过物理分区大小没有对指定的大小进行平均分割,最终所得是最接近平均分割数的大小。
        JFS 文件系统的最大大小为其段大小和 nbpi 值的函数。这些值可得出以下大小限制:
        nbpi  段的大小(字节)  最大大小(512 字节块)  最大大小(兆字节)  最大大小(吉字节)
        512  512、1024、2048、4096  16777216  8192  8
        1024  512、1024、2048、4096  33554432  16384  16
        2048  512、1024、2048、4096  67108864  32768  32
        4096  512、1024、2048、4096  134217728  65536  64
        8192  512、1024、2048、4096  268435456  131072  128
        16384  512  268435456  262144  256
        16384  1024、2048、4096  536870912  524288  512
        32768  512  268435456  1048576  1024
        32768  1024  536870912  2097152  2048
        32768  2048、4096  1073741824  4194304  4096
        65536、131072  512  268435456  8388608  8192
        65536、131072  1024  536870912  16777216  16384
        65536、131072  2048  1073741824  33554432  32768
        65536、131072  4096  2147483648  67108804  65536
        AIX 4.3 中,可以具有 512 到 128K 的 NBPI 值,连同相对应的最大文件系统大小。   
        文件系统驻留在其中的卷组定义最大逻辑卷的大小,并且限制文件系统大小。
    -a Log=LVName
        对于使用 OUTLINE 日志的文件系统,此选项可用于将行外日志从某个逻辑卷更改为另一个逻辑卷,只要该逻辑卷已正确格式化且类型为 jfs2log。如果调用 chfs 来更改行外日志时加载了文件系统,/etc/filesystems 将显示此更改,但实际日志将不会更改,除非对文件进行下次加载(随后紧跟 umount 操作或系统崩溃和恢复)。对于使用 INLINE 日志的文件系统,此操作将不支持在 INLINE 和 OUTLINE 日志之间切换。当前要从行内日志切换为行外日志(或反之),必须删除并重新创建文件系统。
    -a splitcopy=NewMountPointName
        分割文件系统的镜像副本,并将它以只读形式安装在新的安装点处。这样提供了文件系统的副本连同可用于备份用途且与之一致的 JFS 元数据。不保证用户数据的完整性,因此建议您进行此操作时,文件系统的活动应处于最小状态。只有一个副本可以指定为联机分割镜像副本。
    -a copy=Copy#
        指定当与分割副本属性联合使用时,应分割哪个镜像副本。缺省副本为第二个副本。有效的值是 1、2 或 3。
    以下的属性/值对是具体针对增强的日志文件系统(JFS2):
    -a size=NewSize
        以 521 字节块、兆字节或吉字节为单位来指定增强的日志文件系统的大小。如果 Value 具有 M 后缀,它将被解释为以兆字节为单位。如果 Value 具有 G 后缀,它将被解释为以吉字节为单位。如果 Value 以 + 开头,它将被解释为以指定量来增加文件系统大小的请求。如果通过物理分区大小没有对指定的大小进行平均分割,最终所得是最接近平均分割数的大小。文件系统 驻留在其中的卷组定义最大逻辑卷的大小,并且限制文件系统大小。
        注:
        JFS2 不具有影响文件系统最终大小的 nbpi 或段的大小的值。
    -a logname=LVName
        指定正在记录要使用的现有日志的逻辑卷名的文件系统的完整路径名。用于此文件系统的日志设备必须驻留在与文件系统相同的卷组上。可以使用关键字 INLINE 来指定该日志位于具有 JFS2 文件系统的逻辑卷中。此文件系统创建时必须具有将使用此选项的 INLINE 日记。此选项更新 /etc/filesystems 文件,这样的话,如果对包含文件系统的逻辑卷的名称进行了更改,仍可以识别日志。
        注:
        在发行版 AIX 5L 和 AIX 5.1 中,如果文件系统使用行内日志,日志条目将与 /etc/filesystems 中的文件系统相同:
        EX:  /j2.1:         
        dev             = /dev/fslv00         
        vfs             = jfs2         
        log             = /dev/fslv00         
        mount           = false         
        account         = false
        但在 AIX 5.2 中,如果文件系统使用行内日志,日志条目则为 /etc/filesystems 中的关键字 INLINE:
        EX:  /j2.23:         
        dev             = /dev/fslv04         
        vfs             = jfs2         
        log             = INLINE         
        mount           = false         
        options         = rw         
        account         = false
        如果文件系统是在 AIX 5L 或 AIX 5.1 上创建并随后升级为 AIX 5.2,则可使用 chfs 更改 /etc/filesystems 中的 inlinelog 名。
    -a logsize=Value
        为 INLINE 日志指定大小(兆字节)。如果没有使用 INLINE 日志,将会忽略此项。不能大于文件系统大小的 10%。
-A
    指定自动安装的属性。
yes
    系统重新启动时不会安装文件系统。
no
    系统启动时不会安装文件系统。
-d Attribute
    从 /etc/filesystems 文件为指定的文件系统删除指定的属性。
-m NewMountPoint
    指定新的安装点。
-n NodeName
    为指定的文件系统指定节点名。/etc/filesystems 文件中的节点名属性用新名称来更新。节点名属性具体针对某些远程虚拟文件系统类型,比如 NFS(网络文件系统)虚拟文件系统类型。
-p
    为文件系统设置许可权。
    ro
        指定只读许可权。
    rw
        指定读写许可权。
-t
    为指定的文件系统设置记帐属性:
    yes
        将由记帐子系统来处理文件系统记帐。
    no
        文件系统记帐不由记帐子系统来处理;这是缺省值。
-u MountGroup
    指定安装组。安装组用于对相关的安装进行分组,这样一来,它们可以作为一个整体一起进行安装而不是对每个分开安装。例如,如果当执行特定测试时,总是需要 一起安装几个暂存文件系统,那么它们中的每个系统都可以被放入测试安装组中。然后可以使用单个命令,比如 mount -t test 命令,对它们全部进行安装。
安全性
访问控制:只有 root 用户可以运行此命令。
示例
   1. 要更改 /test 日志文件系统的文件系统大小,输入:
      chfs  -a size=24576 /test
      此命令将 /test 日志文件系统的大小更改为 24576 个 512 字节块,或 12MB(只要先前的大小没有这么大)。
   2. 要增加 /test 日志文件系统的大小,输入:
      chfs  -a size=+8192 /test
      此命令会将 /test 日志文件系统的大小增加 8192 个 512 字节块或 4MB。
   3. 要更改文件系统的安装点,输入:
      chfs  -m /test2 /test
      此命令将文件系统的安装点从 /test 更改为 /test2。
   4. 要从文件系统删除记帐属性,输入:
      chfs -d account /home
      此命令将记帐属性从 /home 文件系统中除去。记帐属性从 /etc/filesystems 文件的 /home: 节中被删除。
   5. 要分割镜像文件系统的副本并安装它作为只读形式用以联机备份,输入:
      chfs -a splitcopy=/backup -a copy=2 /testfs
      这样就在 /backup 安装了 /testfs 的只读副本。
   6. 要更改 /test 日志文件系统的文件系统大小,输入:
      chfs -a size=12M /test
      此命令将 /test 日志文件系统的大小更改为 12MB(只要先前的大小没这么大)。
文件
/etc/filesystems  列出已知的文件系统并定义它们的特征。
相关信息
crfs 命令、mkfs 命令、mklv 命令。
AIX 5L Version 5.2 System Management Concepts: Operating System and Devices 中的 Accounting Overview 解释了文件系统记帐子系统。
AIX 5L Version 5.2 System Management Concepts: Operating System and Devices 中的 File Systems 解释了文件系统类型、管理、结构和维护。
有关安装基于 Web 的系统管理器的信息,请参阅《AIX 5L V5.2 基于 Web 的系统管理器管理指南》中的『第 2 章:安装与系统需求』。
AIX 5L Version 5.2 System Management Concepts: Operating System and Devices 中的 System Management Interface Tool 解释了 SMIT 结构、主菜单和任务
机械装备 · 2011-10-31
浏览654

回答者

ZYH9988
系统管理员VS

ZYH9988 最近回答过的问题

回答状态

  • 发布时间:2011-10-31
  • 关注会员:2 人
  • 回答浏览:654
  • X社区推广