中小金融机构灾备服务云平台中IBM power技术的应用实践

中小金融机构灾备服务云平台中IBMpower技术的应用实践

                                                                      ——张鹏

中小金融机构灾备服务云平台项目的目标是通过应用SOA理念,采用云技术手段,同时贯穿ITIL管理,开发建设集约、高效的中小金融灾备服务网络,以及建设可资源共享、可自动化和动态调度的灾备中心资源,从而形成金融灾备服务云,使之具备大部分中小金融机构数据中心的灾难恢复与接管服务能力,达到可以使用较少的资源和很低的投入,让大多数中小金融机构,在灾难情况下,及时获得云灾备服务,具备业务连续运作能力,实现维护金融稳定的首要目标。

经过大量的金融行业调研分析,目前我国中小金融机构的核心业务系统多为RASIC架构的服务器,其中基于IBM power架构的服务器占绝大多数。为了满足中小金融机构的业务需要,结合了大量IBMpower,IBM storage 等等技术特点,成功建设了具备资源共享,动态调度,以一备多等特点的面向中国中小金融机构的灾备服务云平台。

本文从中小金融机构的灾备服务云平台设计,建设过程中关注的问题,以及IBM power技术在平台建设中起到的作用加以简单描述。

以一备十,实现集约、高效、节能、环保的云平台

灾备服务云的目标是:通过科学规划、技术创新和资源利用,结合动态管理和ITIL管理,完成让1个云灾备服务中心能够承担10至100个金融灾备中心的工作任务,实现资源共享、安全管理,达到集约、高效,节能、减排、环保建设目标。如何实现以一备十,提供如此强大的计算能力呢? IBM power的虚拟化技术帮助我们解决了这个问题。PowerVM 现在可支持每个核心 20 个虚拟机。目前每个 POWER7+ 处理器处理多达 8 个核心,虚拟机的增加提高了大规模整合的灵活性和有效性。Power7+的发布,为灾备服务云平台未来以一备百成为可能。这得益于Power7+的出色的性能,即最高提供64 个 4.4 Ghz 核心处理器,或在单系统中提供 128个 3.7 GHz 的核心处理器速度,以便在企业基础架构中支持最高要求的应用程序,包括新兴的公有或私有云环境。新的处理器迭代通常能提高时钟速度,并且使 POWER7+ 的交付范围从 45 纳米技术缩小到 32 纳米。处理器晶片尺寸的缩小导致频率提高,这样反过来也对应用程序的性能产生了积极影响。三级缓存(与一级和二级缓存同时运行的专用计算机性能单元(CPU)内存)已经增加了 2.5 倍,这也提高了整体的应用程序性能。相对于以前软件支持的内存压缩,内存压缩加速器是一个重大的进步。有了硬件的辅助,压缩处理能在芯片自身上执行,这样就能提高效率并允许更多周期可用于处理其他工作负载需求。

持续高可用,不间断运行的云平台

如何减少或者避免非计划性的宕机一直是IT企业关注的问题。IBM POWER Systems最重要的设计目标是部署一个基于架构的设计策略来构建可以避免非计划应用宕机的IBM 服务器。当遇到硬件发生错误,系统必须分析,隔离和标记有问题的部件,以方便修复(可以通过“自我修复”的动态修复或者标准的服务操作),使得系统的中断很小甚至不中断。IBM 的RAS(reliability, availability, andserviceability)设计架构RAS架构体现了IBM工程师设计的核心原则,服务器设计目标是为了实现如下的特性:

1. 通过大量内置于系统内的,支持有助于正确操作环境的高可靠性部件,来实现高可靠性设计。  

2. 在服务器设计的前期,准确识别最有可能发生错误的部件。部署一个服务器架构,允许服务器在这些部件发生间歇故障的时候能够恢复,或者在必要的时候切换到冗余部件上。错误恢复的自动重试机制:错误操作:通过POWER 处理器的指令重试机制实现错误数据在I/O系统传输损坏的缓冲数据-在缓存中重新载入数据(重写数据)。内存子系统将存储缓冲的数据备份同样也可以通过保守的策略(冗余策略):服务器设计可以通过,例如:两条连接CEC机箱和I/O抽屉的I/O连线,来实现完全冗余的功能;冗余且实现N+1的校验。例如:服务器包含多个,可变速的风扇。在这个情况下, 当一个风扇发生故障(一些情况,甚至冗余多个故障)时,剩余的风扇将自动被指示提高转速,以保持适当的温度,直到实施了一个热插拔的修复。因此可承受多个部件发生错误。细粒度冗余可以用在子系统级别。例如:在内存系统(缓存或内存)会用多余或“热备”字节用来实现错误检测和修正(ECC)几十年以来,IBM对高端设备的设计和操作中,IBM工程师收集了大量的可靠性数据的记录。详细列出了部件的故障概率,确定哪种部件需要配置冗余的设备以提供高可用性以及哪种冗余层次能有效平衡可用性操作,服务器性能和整个系统的开销。当使用冗余的部件提供高可用性,IBM和第三方的软件商提供多种高可用性集群方案,比如IBM PowerHA。  

3. 开发的服务器硬件可以检测和记录错误信息。自1997以来,IBM POWER芯片的处理器都使用了首次故障信息捕获机制(FFDC) 的设计理念。这个理念是基于硬件的错误检测器来进行内部系统部件检测。每个检测器可将检测出的错误信息报告给直连的Service Processor(服务处理器)。FFDC可以在第一时间准确快速定位错误原因。当务之急就是识别首次发生错误的部件,并阻止其再次发生错误。FFDC技术最重要的优势在于其可在错误发生前预测潜在的硬件错误。通过FFDC,POWER服务器的Service Processor(服务处理器)可对系统的错误进行恢复。设计了一个能识别错误恢复模型的算法。Service Processor(服务处理器)可先执行一些操作来应对更多的灾难性的错误发生。  

4. 创建能够自我恢复,可以自动的进行错误更正,修复或者替换故障部件的服务器硬件。为达到有效性的要求,最有效的方式是在POWER 的服务器上部署冗余部件。冗余可在功能层或者子系统层进行部署。例如,内存中冗余的数据位可在 错误不可修复时自动的激活,或者在错误发生后,调用内存备用字段。自我恢复的目的是避免由于错误发生而引起的非计划宕机。

在某些情况下,可通过自我恢复的部件避免计划内宕机。自我恢复的观念可在不移动或者不替代物理部件的情况下对系统部件进行修复。IBM的FFDC理念就是对间歇性错误的准确捕获,通过Service Processor(服务处理器)检测潜在的问题部件。经过分析,服务器可自我恢复,并在系统错误发生之前进行修复。FFDC架构内独一无二的设计特点使得POWER服务器在处理器故障发生时进行故障的捕捉和隔离。然后,利用已保存的系统状态信息,服务器可通过“处理器指令重试”和“替代处理器恢复”机制,可透明地(对应用来讲)在原来的那颗处理器核上或者在备份处理器核上恢复。在很多的情形下,POWER6服务器可以继续运行,其中很多的故障情况在上一代POWER服务器上被认为是“不可恢复的”。FFDC方法论也可用于预测性的卸载部件,以方便将来修复。在这种情况下,系统能在较低性能下运行,避免了潜在的昂贵的突如其来的服务器宕机。例如:处理器动态卸载,能动态(自动)把一颗处理器离线进行错误修复工作。   在那些极为罕见的,会引起分区或系统中断的情况下。FFDC信息可以在重启的时 候用来卸载故障部件,允许系统或分区在预期的维修前,以较低的性能运行。

5.
POWER7在高可靠与高可用性方面,包括了以下主要的设计:

动态双振荡器:有两个振荡器为处理器提供基准时钟(OSC0和OSC1)的失效备援。

高可靠的处理器与节点总线接口:具有ECC保护与节点热添加与修复功能的Fabric架构总线接口,用于连接其他的处理器或节点。

处理核心恢复:检测各主要寄存器的错误,并进行清除与重试,增加堆栈闭锁功能以改善软件错误率(SER)。

后备处理器恢复:核心检查停止时进行分区隔离。

L3 eDRAM缓存:具备ECC保护功能、特殊的无法修正的错误(SUE,Special Uncorrectable Error)应急处理、缓存行删除以及备用的行与列寻址功能。

GX IO总线:用于与IO集线器相连接,具备ECC保护以及热添加。

高能内存功能:具备标准的ECC/Chip Kill内存技术;可允许两个内存芯片失效;SUE应用处理;选择性的内存镜像功能用以在DIMM失效时进行分区恢复;PowerVM虚拟化管理器也具备全DIMM失效时的保护功能。

众多IBM power技术保障使得基于IBMPOWER技术为核心的灾备服务云平台具备达到99.999%的高可用性等级。

参与5

0同行回答

“答”则兼济天下,请您为题主分忧!
doudalundoudalun系统运维工程师中亦安图科技发展(北京)有限公司
好像都是说P7产品特性的啊?这个灾备云平台架构如何做啊显示全部
好像都是说P7产品特性的啊?这个灾备云平台架构如何做啊收起
IT咨询服务 · 2013-05-30
浏览1245
feidaodaofeidaodao系统运维工程师GA
张总的大文必须来顶起哈灾备服务云,时代的前沿呀。显示全部
张总的大文必须来顶起哈

灾备服务云,时代的前沿呀。收起
金融其它 · 2013-05-28
浏览1222
午夜幽魂午夜幽魂系统运维工程师计算机有限公司
绿色数据中心以后要成大事呀显示全部
绿色数据中心以后要成大事呀收起
系统集成 · 2013-05-24
浏览1221
zp_ccczp_ccc高级技术主管国内某金融科技公司
讨论:IBM POWER 7+ 如何助力,绿色,高可靠的云数据中心。显示全部
讨论:IBM POWER 7+ 如何助力,绿色,高可靠的云数据中心。收起
互联网服务 · 2013-05-24
浏览1255

提问者

zp_ccc
zp_ccc1615
高级技术主管国内某金融科技公司
擅长领域: 存储灾备服务器

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2013-05-24
  • 关注会员:1 人
  • 问题浏览:6749
  • 最近回答:2013-05-30
  • X社区推广