真实环境下机房如何不停业务搬迁?(走进企业)

环境描述:
一、机房主要设备:
UPS电源机柜、ERP集群(共四台P系列小机(两台P740、两台P720))、F5负载均衡、TSM服务器一台(WinServer2003R2)、TS3310带库一台、V7000磁盘阵列一台、两台Cisco4948交换机、两台2498-B24光交。

二、设备连接情况:
四台小机AIX系统:AP01(P740)装有WAS5.1部署公司ERP系统
                       DB01(P740)装有DB2数据库,TSM代理程序
                       DI01(P720):数据交换中心DIServer。(下面各二级服务器上安装有DIClient,双方通过发行订阅关系进行数据传输)
                       TS01(P720)测试机。部署WAS、DB2、ERP系统,正式机程序上线前通过该测试机测试。(图中未标识)

1111111111111.jpg


四台小机通过光交与V7000存储相连,另外:四台小机还用过4948交换机与V7000相连。


V7000三个raid5组成一个stgpool,通过划分卷映射至小机AIX系统。

22222222222222222222.gif


平时业务:通过网线传输数据。Lan-Free备份时通过光纤传输数据。(这是个人理解,不知道对不对)

TSM服务器上装有tsm server1软件服务和AC服务。通过web界面可查看带库备份情况。

TS3310包括33盘数据带,2个清洗带,2个驱动器。

三、问题求助:

1.首先TSM Server在WinServer2003 R2系统上,在DB01(AIX6.1)上装有客户端程序和TSM Agent代理程序,AP01和DI01上都装有tsm客户端程序,正常备份时需要有dsm sche调度进程开启。

请问:能否结合这个实际情况将Lan-Free讲的具体点,我一直不太明白这块。在AIX上是如何安装配置tsm客户端的?两台小机AP01和DI01是如何通过DB01代理实现的备份调度?什么机制引起的?(请说的详细些,便于我们会员能够按您给的建议自己动手操作一遍,加强学习交流)

2.目前存储阵列V7000就一台,如果真要搬迁机房,在花费成本最低的情况下,如何才能保证业务不中断且数据是安全完整的?

若需要购买另一台V7000的话,如何才能使两台存储数据实时同步?另一台是全新的,如何具体操作呢?能否有详细步骤?

3.WAS在AIX上的具体安装部署配置步骤还不太明白?另外我们这个WAS版本5.1太低,能否给出个不停业务的情况下升级版本的具体方案?(可以利用HACMP)

4.另外在F5中通过脚本策略通过不同的WAS虚拟机访问不同的ERP模块画面,在WAS控制台共设置了6个应用服务器(JVM虚拟机),但虚拟机经常有宕机的情况,现场打印报表或者其他不明操作会导致虚拟机内存溢出,生成好多javacore或者heapdump文件,针对这点有没有好的监控WAS的软件?我们的WAS版本5.1,好多监控软件不支持,因为不熟悉所以跑着业务也不敢动手升级版本,如果出问题损失可就大了。

5.javacore和heapdump文件的分析有没有经验可以学习?IBM提供的分析工具你知道对我们这些不太懂代码的人来说查找问题根源比较费劲。

问题都是实际工作中遇到的,有高手大侠的话可以给大家一起解答下,共同学习进步。在此代表求知若渴的广大会员们谢谢你们了!

———————————————————————————————————————————————————

结合以上企业的问题,AIX专家俱乐部会举办一个:走进企业,共同解决企业实际IT难题活动。由于该问题比较多,需要时间来进行澄清需求,所以社区会员均可以回帖询问发帖者,你认为需求描述不清楚的地方或者你还需要了解的地方都可以询问,发帖者有义务需要每天进行回帖澄清会员的问题。

本次活动礼品由:AIX专家俱乐部提供。该企业实际问题由:某钢铁公司企业实际难题

活动目的:走进企业,让更多社区会员共同解决企业的实际IT难题;

澄清需求时间:1月16日—1月23日

提交解决方案或者解决思路时间:1月28日   (所有会员均可以参与,可以针对发帖者的一个或者多个问题进行撰写解决方案或者解决思路,字数不限。发帖者会从大家提交的思路或者方案中,评选一个最佳满意的方案。该方案即可成为本次活动的优胜方案。获奖者可以获得社区提供的精美礼品一份。

解决方案提交:参与社区ID号并附上解决方案作品邮件提交到:peibin.peng@twtgroup.com.cn

获奖公布时间:1月30日


本次获奖礼品图:



本期最佳实操解决方案奖获得者:“北京荣歆咨询”

参与62

51同行回答

北京宝汇德北京宝汇德  副总经理/副总裁 , 北京宝汇德技术服务有限公司
您好!       从上述的问题以及回复中了解到了一些基本情况。1.极端情况下能停业务时间1小时2.搬迁预算不高3.搬迁距离200米4.有不停业务的必要吗?(系统负载应该不高,夜间操作应该就没有(或者降低)您说的{财务、销售、结算、成本、统计等等各个部门的人都不...显示全部
您好!
       从上述的问题以及回复中了解到了一些基本情况。
1.极端情况下能停业务时间1小时
2.搬迁预算不高
3.搬迁距离200米
4.有不停业务的必要吗?(系统负载应该不高,夜间操作应该就没有(或者降低)您说的{财务、销售、结算、成本、统计等等各个部门的人都不能正常办公了}这些问题了吧)
5.不停业务成本超高(最完美的方案是再布置一套系统,不停业务 这个是 [应用级灾备]的问题,而不仅仅是机房搬迁了)
      考虑到这些情况,不谈其他:
1.将新机房的线缆全部布置好
2.做好备件准备(防止服务器因为部件损坏而无法正常运行)
3.业务人员到厂支援
4.1小时时间完全能够将服务器搬到新机房并开机运行。
最后说一点,一些钢铁企业机房搬迁就是这么做的。

谢谢!收起
系统集成 · 2015-01-23
浏览4649
wangqlwangql  系统工程师 , NULL
1. tsm东西太多,我给你说原理吧,理解了原理就容易了。直接详细到可以操作是不现实的tsm是cs架构,备份哪些主机就在哪些主机上安装tsm客户端。tsm客户端可以备份普通文件和db2数据库,备份其他的东西需要安装额外的模块,如tsm for db模块、for erp模块、for mail模块等待。备份...显示全部
1. tsm东西太多,我给你说原理吧,理解了原理就容易了。直接详细到可以操作是不现实的
tsm是cs架构,备份哪些主机就在哪些主机上安装tsm客户端。tsm客户端可以备份普通文件和db2数据库,备份其他的东西需要安装额外的模块,如tsm for db模块、for erp模块、for mail模块等待。备份的时候通过网络传输数据。备份速度受制于网络带宽。
   如果数据量大,可以用lanfree模块。lanfree模块安装在要备份数据的主机上,要求安装lanfree模块的主机能看到驱动器,备份的时候数据通过san网络直接从主机备份到带库上。
   关于tsm调度,也是分两块
   1.需要在服务端定义调度、再将定义好的调度和执行调度的节点关联起来
   2.需要在安装了tsm客户端的主机上启动dsm sched进程(dsmcad也行),进程会按时向server询问(这是其中一种方式,还有server推送模式),当符合调度执行时间了,客户端就会执行相关的调度操作。


2. 我们做过相关搬迁业务。按你说的业务不中断、花费小这两个本身就矛盾的。
    业务肯定会有中断时间,只有一台v7000的情况下,成本最小的方法就是租用或利旧其他存储利用v7000的外部虚拟化功能将数据备份到外部存储上。做完测试后搬迁。
    另买一台v7000,实时同步有两种:一种存储间作同步镜像,类似存储容灾的那种。另一种是做Vdisk mirror。前者需license,后者不要。我们当成用的是vdm,停机时间最短。

3和4实际是一个问题,你的was确实太老了,老到一些监控软件都不能很好的支持。得先做升级测试,你was上布的应用和最新的jdk是否兼容等等都需要测试。 反而was的升级安装,参照info center的安装部分就行,或者网上一大把。

5. HeapAnalyzer和IBM Thread and Monitor Dump Analyzer for Java收起
IT咨询服务 · 2015-01-20
浏览3034
tong2012tong2012  系统工程师 , 中国航空
就这个环境来讲,要求停机时间最小,投资最小;不过资料里面提到,新机房只有机柜,其他什么都没,看来是不具备搬迁条件的;新机房首先得具备下面条件的:1、新的UPS,这个必须安装好的,不然的话,市电是不能给设备供电的;2、空调也得准备好吧;3、上联的网络设备,需要提前假设好的吧;4、地板下面...显示全部
就这个环境来讲,要求停机时间最小,投资最小;不过资料里面提到,新机房只有机柜,其他什么都没,看来是不具备搬迁条件的;
新机房首先得具备下面条件的:
1、新的UPS,这个必须安装好的,不然的话,市电是不能给设备供电的;
2、空调也得准备好吧;
3、上联的网络设备,需要提前假设好的吧;
4、地板下面的lader准备好了没?走向跟原机房有差别吧?网线打算自己做还是买成品的?
5、搬到新机房后,网段变不变?是不是这套环境还用目前的网段?IP变不变?

如果想只停几分钟的业务,那这就是要用现有设备的备机,去搞个容灾了,不够的设备再去购买,既然是200米远,如果两个机房之间可以拉多条光纤线和网线的话,那简单了,把备机都搬过去,测试用的,备用用的全都先搬过去,网线和光纤线都部署好,两套AIX小机的备机都搬过去,交换机的备机也搬过去,做跨两个机房的HACMP双机,然后再买台生产用的磁阵,用AIX自带的卷组镜像技术,把老的磁阵替换下来,双机切到新机房的主机上就行了,然后剩余的设备再慢慢搬;收起
系统集成 · 2015-01-19
浏览2991
北京荣歆咨询北京荣歆咨询  系统架构师 , 北京荣歆咨询有限公司
对于需求的理解:大致分两部分:一>         在注重业务连续性的要求下进行IT系统的搬迁;二>         对IT系统的备份机制、网络应用服务器及相关监控和分析等方面进行优化。企业在IT系统的建设和升级过程中都...显示全部
对于需求的理解:
大致分两部分:
一>         在注重业务连续性的要求下进行IT系统的搬迁;
二>         对IT系统的备份机制、网络应用服务器及相关监控和分析等方面进行优化。

企业在IT系统的建设和升级过程中都会遇到各种各样类似的需求。非常感谢这个企业愿意拿出自身的实际需求供大家讨论和借鉴。

企业的IT系统建设是非常复杂和不断变化的。业务需求和业务量不断的增长促使IT系统的功能和容量呈线性或指数型增长。而IT基础架构由于其本身的建设规律等技术条件制约,一般呈阶梯式增长。业务需要和运维的技术条件之间的矛盾长期存在。

下面先简要讨论一下业务连续性方面的问题,也就是需求中目前主要关心的问题:
业务连续性可以从两个维度来讨论,
一>  一个维度是规划与实施,
1)所谓规划就是为了达到一定的业务连续性,需要预先规划,采用什么样的技术和条件准备。比如为了达到多站点双活和亚分钟级的业务切换,也许需要DS8000 MM+AIX HyperSwap这样的顶级灾备方案。而DS8000 MM+PowerHA XD一般可以满足十分钟级别的切换需要。如果采用异步数据复制技术,一般时间更长,即使是DS8000一般也至少需要半小时的切换时间,因为异步会导致数据可能不是最新,需要人工等其他机制来决定是否启用异步灾备的数据。
2)实施也非常重要,因为必须有一个完整并成功的实施过程,才能达到规划的效果。换句话说,越是高大上的灾备功能,实施本身越是复杂的,而在成功实施前,当然无法使用这样的功能。所以,对于本次企业的实际需求来说,很多保障业务连续性的方案是远水解不了近渴的。切实的方案首先是能在线实施的。如果需要生产系统中断来实施的话,也许应用中断的时间反而会长于直接搬迁的时间。
二>  另一个维度是风险控制与功能实现。
在任何IT规划与实施过程中,当然要实现尽量多、尽量好的功能。但同时,为实现这些功能,我们要付出多少人力物力财力,以及会遇到哪些风险,都是必须要充分分析和权衡的。对于生产系统,特别是生产数据,一切操作必须慎重再慎重。规划的任何不周全,或者实施的疏忽都可能导致灾难。

鉴于篇幅,先写这么多,抛砖引玉,请大家拍砖:lol收起
IT咨询服务 · 2015-01-17
浏览3131
北京荣歆咨询北京荣歆咨询  系统架构师 , 北京荣歆咨询有限公司
回复 51# hufeng719 多谢您的评价,有需要多交流。显示全部
回复 51# hufeng719

多谢您的评价,有需要多交流。收起
IT咨询服务 · 2015-02-05
浏览3767
hufeng719hufeng719  系统工程师 , 某钢铁企业
非常感谢大家的积极参与和解答,通过交流我学习到很多新的知识。在这里尤其感谢会员 :“北京荣歆咨询” 花费宝贵时间给出的参考方案,该方案中考虑的方方面面比较齐全,更重要的是比较接近实际,可操作性较高,具有很好的指导性和参考价值。我会反馈给公司,对我们在实际操作中很有一...显示全部
非常感谢大家的积极参与和解答,通过交流我学习到很多新的知识。在这里尤其感谢会员 :“北京荣歆咨询” 花费宝贵时间给出的参考方案,该方案中考虑的方方面面比较齐全,更重要的是比较接近实际,可操作性较高,具有很好的指导性和参考价值。我会反馈给公司,对我们在实际操作中很有一定参考性,也许以后有一定的合作机会!同时也非常感谢社区平台提供这么好的交流活动,帮助企业解决他们的实际难题。
现分享给大家,一同学习下,很不错。

附件:

附件图标荣歆咨询移机方案.docx (241.92 KB)

收起
能源采矿 · 2015-02-02
浏览4048
wangqlwangql  系统工程师 , NULL
回复  少东家 谢谢少东家的回复,挺有帮助的。两台V7000之间的操作比如vdm能说的详细些吗? ...hufeng719 发表于 2015-1-21 19:37 vdm就是vdisk mirror,如果两台v7000做,其中一台挂接在另一台后面。划好的lun映射给前端的v7k。前端的v7000以imaged mdisk方式识别,与...显示全部
回复  少东家
谢谢少东家的回复,挺有帮助的。
两台V7000之间的操作比如vdm能说的详细些吗? ...
hufeng719 发表于 2015-1-21 19:37

vdm就是vdisk mirror,如果两台v7000做,其中一台挂接在另一台后面。划好的lun映射给前端的v7k。
前端的v7000以imaged mdisk方式识别,与其他卷进行镜像即可收起
IT咨询服务 · 2015-01-29
浏览3938
hufeng719hufeng719  系统工程师 , 某钢铁企业
回复 47# xjsunjie 谢谢帅哥的回答。有没有详细点的文档可参考啊?》显示全部
回复 47# xjsunjie

谢谢帅哥的回答。有没有详细点的文档可参考啊?》收起
能源采矿 · 2015-01-24
浏览3969
hufeng719hufeng719  系统工程师 , 某钢铁企业
回复 46# larc_honey 谢谢显示全部
回复 46# larc_honey

谢谢收起
能源采矿 · 2015-01-24
浏览4081
xjsunjiexjsunjie  系统架构师 , CNPC
3.WAS在AIX或LINUX上的具体安装部署基本一致,最主要的是需要配置图形界面,这样安装起来会比较方便。WAS版本5.1太低,可以利用HACMP来不停业务的情况下,进行升级到was7。但是相应的JDK版本也需要随着WAS的升级而进行更新。4.JVM的内存溢出,生成好多javacore。可以使用 jconsole...显示全部
3.WAS在AIX或LINUX上的具体安装部署基本一致,最主要的是需要配置图形界面,这样安装起来会比较方便。WAS版本5.1太低,可以利用HACMP来不停业务的情况下,进行升级到was7。但是相应的JDK版本也需要随着WAS的升级而进行更新。

4.JVM的内存溢出,生成好多javacore。可以使用 jconsole工具来分析。它是JDK里自带的一个工具,可以监测Java程序运行时所有对象的申请、释放等动作,将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。

5.javacore和heapdump文件的分析可从IBM官网下载JCA工具,专门用来分析JAVACORE文件的工具。使用JCA工具需要JAVA环境,再下载一个JDK。由于我们使用的JCA是3.9.6版,所以下载一个JDK1.6版的就行。使用这个工具可以对典型的包括线程阻塞、CPU使用率过高、JVM Crash、堆内存不足和类装载等问题进行比较方便的分析,再对应的解决办法就可以搞定问题。收起
互联网服务 · 2015-01-23
浏览3997

提问者

hufeng719
系统工程师某钢铁企业
擅长领域: 数据库存储服务器

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-01-16
  • 关注会员:3 人
  • 问题浏览:38387
  • 最近回答:2015-02-05
  • X社区推广