haozhangsir
作者haozhangsir2019-05-20 14:36
系统工程师, 银华

某基金公司双活数据中心建设架构设计方案

字数 4095阅读 26184评论 6赞 10

一、概述

1.1背景与现状

金融行业是国家稳定发展的重要保障,因此,国家对金融行业的业务监管要求越来越高。传统的系统架构已不能满足国家的业务连续性要求,需要依靠科学技术提升系统架构,将RTO、RPO的指标无限接近于0。传统的同城灾备建设普遍采用热备的方式,通过存储同步复制技术保证生产数据中心与灾备数据中心数据的一致性,这种方式将数据的RPO指标提升为0,但不能进行快速切换,保证业务系统的快速恢复。

同时,这种热备方式只有在发生灾难时进行切换,平时基本处于待机状态,对于花费大量人力物力财力搭建的环境,是一种资源浪费。在这种情况下,双活数据中心的架构应运而生。双活数据中心保证业务数据0丢失的同时,能够无间断的接管业务,还可以访问用户采取就近快速访问业务。双活数据中心架构主要包括存储双活、数据库双活、应用双活以及网络双活四个层面,其中存储双活是双活数据中心的基础,因此,存储双活架构的搭建是各大企业建立双活数据中心的重中之重。

基金公司作为金融行业重要组成部分之一,对我国的经济发展起到推动作用,也为公民投资理财提供多条路径。投资系统是基金公司最核心的业务系统,需要低时延、高可用的技术手段保障其无中断运行。目前,我公司采用热备数据中心,应用、数据库以及存储部署在生产中心,通过存储级复制将数据同步至灾备中心。系统正常运行时,客户访问到生产中心的应用系统,灾难发生后,运维人员手工启动灾备中心的应用和数据库,这样的应急操作将达到10分钟甚至10分钟以上。

目前,监管部门对于投资交易系统业务连续性要求故障应在5分钟内业务全部恢复,只有这样才能保证基金行业的稳定运行,但当前的架构不足以支撑投资系统的连续性要求;存储设备多样化,目前生产环境中拥有EMC、IBM、HDS以及国产品牌等多家产品,同时,同厂商也存在不同型号的存储阵列。现存EMC VNX和VMAX系列,HDS的HUS和AMS系列,IBM的DS以及FAS系列产品。不同厂商的设备管理方式不尽相同,没有统一的对外接口和管理资源池,这样不利于运维人员的管理,增加了维护成本。在与同业交流和调研后,我公司决定搭建双活数据中心。

1.2工作目标及范围

不同企业搭建双活数据中心目标不尽相同,但大致可归纳为以下几点:

  1. 业务连续:搭建跨区域的同城双活数据中心,有效地避免单一数据中心级别故障导致的业务中断。
  2. 流量转发:提升数据中心资源的利用率,同城数据中心独立运营,形成灵活、可拓展面向服务的业务架构,根据用户范围,为用户提供就近快速的访问响应。
  3. 业务安全:各数据中心基础设施完善,机房环境稳定,数据中心内部具有保护核心网络不受攻击的技术保障手段。
  4. 环境一致:各数据中心部署的应用对用户来说是透明的,对外提供统一的服务接口,数据中心间的数据和部署参数须完全一致,具备随时可切换的能力。

范围:搭建双活数据中心总体架构,包括双活存储系统、双活数据库系统、双活应用系统和双活网络系统。双活网络系统主要依靠智能DNS、GSLB全局负载均衡、大二层等技术来实现;双活数据库系统主要采用数据库集群技术,包括ORACLE RAC、DB2 pureScale等;双活应用系统依靠负载均衡实现。本方案将主要探讨双活存储系统的搭建,通过双活存储系统的搭建,可实现数据库系统的双活。鉴于各企业存储厂商不尽相同,本方案采用存储整合设备将异构存储统一管理,并基于此平台,实现存储系统的双活。

二、双活架构设计方法

2.1具体方案

本方案采用以EMC VPLEX技术为核心的双活虚拟化数据中心解决方案。EMC VPLEX产品能够打破数据中心间的物理壁垒,提供不同站点间对同一数据副本的共享、访问及在线移动的能力,提供双A(Active-Active)高可用服务,结合虚拟化技术及DWDM(密集型光波复用)网络扩展技术,能够实现业务及数据在站点间的透明在线移动,使用户能够在两个站点间动态平衡业务负载,最大限度利用资源,并提供零RTO的高可用能力,是真正意义上的云计算基础架构。

存储虚拟化网关平台是实现双活存储系统核心技术之一,目前市场中以EMC的VPLEX和IBM的SVC平台为主。在进行存储网关平台选型时,主要考虑高可用、高可靠以及高拓展性。在高可用方面,VPLEX和SVC的控制器都是多活结构,内部通过多条路径负载到虚拟磁盘,不存在单点故障;SVC引擎基于IBM X系列的PC服务器,每个控制器24GB缓存,VPLEX引擎基于VMAX存储机头,每个控制器36GB缓存,前端接口VPLEX略多于SVC;VPLEX多个控制器可并发访问指定虚拟卷,支持全局一致性缓存机制,同业中VPLEX架构更加成熟,因此经过选型,采用EMC VPLEX架构部署。

2.2详细设计

EMC VPLEX 是一种全新的体系结构,它吸收了 EMC 在 20 年设计、实施和完善企业级智能缓存和分布式数据保护解决方案的实践中取得的经验和教训,以可扩展、高可用的处理器引擎为基础,EMC VPLEX 系列设计为可从小型配置无缝扩展到中型和大型配置。EMC VPLEX介于在服务器和异构存储之间,使用独特的群集体系结构,该体系结构允许多个数据中心的服务器具有对共享块存储设备的读/写访问权限。

EMC VPLEX作为主机和存储的统一接口,数据底层采用现存的EMC VNX存储阵列和利旧的IBM DS存储阵列。利用VPLEX的存储虚拟化网关可以整合现存的存储阵列资源,可以充分利用存储阵列提升设备的利用率。通常,未采用存储网关的存储阵列真实利用率只有30-70%,采用存储网关可以使存储阵列利用率达到70-90%;同时,利于运维人员的统一管理。

EMC VPLEX全新体系结构的独特特征包括:

1)横向扩展群集硬件,允许以可预知的服务级别逐步扩展
2)高级数据缓存,它利用大规模 SDRAM 缓存提高性能并减少 I/O 延迟和阵列争用。
3)分布式缓存吻合性,可跨整个群集自动执行 I/O 的共享、平衡和故障切换
4) 一个统一视图显示跨 VPLEX 群集的一个或多个 LUN,从而实现新的高可用性和工作负载移置模式。

使用 EMC GeoSynchrony 操作系统的EMC VPLEX系列是一个基于 SAN 的联合解决方案,它可消除单个数据中心内和多个数据中心之间的物理壁垒。EMC VPLEX 是可以同时提供本地联合和分布式联合的平台。本地联合提供了站点内物理存储元素的透明协作,而分布式联合将这一概念扩展到了跨远距离的两个位置之间。分布式联合是通过随 VPLEX 提供的 AccessAnywhere 这一突破性技术实现的,此技术支持跨远距离共享、访问和移置单个数据拷贝,是跨距离双活数据中心的基础。

EMC VPLEX 系列目前包括三个产品:

  1. VPLEX Local 可跨异构阵列提供简化的管理和无中断数据移动。
  2. VPLEX Metro 提供同步距离内两个VPLEX 群集之间的数据访问和移动。
  3. VPLEX Geo 提供异步距离内两个VPLEX群集之间的数据移动和访问

凭借独特的纵向扩展和横向扩展体系结构,VPLEX 系列的高级数据缓存和分布式缓存吻合性提供了工作负载弹性、存储域的自动共享、平衡和故障切换,并帮助实现了有可预知服务级别的本地和远程数据访问。

VPLEX Local 支持本地联合,主要用于同机房内;VPLEX Metro 提供分布式联合能力,扩展了同步距离内两个位置间的访问能力,主要应用于同城灾备数据中心。VPLEX Geo 支持更远距离的共享、访问和移置单个数据拷贝,用于异地灾备数据中心。

基于存储的双活数据中心必须严格保障存储数据的一致性,VPLEX 在进行写操作时,会通过透写方式保障数据的一致性,待数据完全相同的写入两端存储阵列后,才返回主机写完成信号。VPLEX 写操作的工作原理如下图:

ka3ba95mc3

ka3ba95mc3

主机向VPLEX Metro集群1发送请求,集群1接到主机请求后集群2发送相同的主机请求,待数据同时向存储阵列落盘后,返回完成请求信号,主机端操作完成,中途有异常时,返回请求失败信号,避免双数据中心存储数据不一致。

基于 VPLEX Metro搭建双活数据中心解决方案的结构如下图所示:
e8sqg4y6u4r

e8sqg4y6u4r

1) 基于EMC VPLEX Metro提供双活数据中心解决方案核心功能。
2) 基于传输厂商提供的DWDM 二层网络延伸技术,从网络层面为数据库和服务器在线透明迁移提供条件,及最小化的RTO指标。
3) 基于EMC Witness为双活存储系统提供心跳机制,避免由于存储间链路出现问题或单台存储出现问题时发生脑裂故障。
4) 基于EMC Avamar为双活数据中心提供完善的数据备份保护。
5) 基于EMC Ionix ITOI(IT Operations Intelligence)产品实现虚拟数据中心的全面集中监控管理。

在 VPLEX 5.0 中,Witness 功能仅适用于放在一致性组中的分布式卷。未放在一致性组中的分布式卷具有自己的独立偏好设置。在首选群集发生故障时,这些卷将暂停 I/O。将 VPLEX Witness 部署到以下故障域非常重要,该故障域应独立于每个包含两个VPLEX 群集的故障域,以确保单个故障影响的实体不会超过一个,节点故障影响如下图所示。双活数据中心为我们提供了技术保护,同样,我们也应该定期对高可用架构进行有效的演练,只有这样,才能做到养兵千日用兵一时,为企业提供最可靠的保护。

vy9sx9trej

vy9sx9trej

随着科学技术的发展,存储双活系统的建立使双活数据中心得以实现,也为企业提供了新的数据中心建设方向,也为客户提供了更加稳定便捷的服务。双活数据中心已经经过了不少企业的验证,我们会汲取经验和建议,建设成果也会进行分享。在未来,还会有先进的技术和架构,提升IT系统的稳定和性能,大家紧跟步伐,同时完整的运维管理体系和运维人员技能培养必不可少,这样才能发挥企业最大潜力,为国家金融稳定发展提供保障。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

10

添加新评论6 条评论

#makosun系统工程师, 东华软件股份公司
2019-06-12 16:29
能下载吗?

彬彬@makosun 下载版本可以点击这个:http://www.talkwithtrend.com/activity/?id=1449

2019-06-17 13:56
#lxk215313951系统工程师, 城市商业银行
2019-06-11 18:40
非常好,两台双活存储拉开到两个数据中心,关键要评估两个站点之间的时延和抖动
#haozhangsir系统工程师, 银华
2019-06-05 11:09
同步方式都依赖于高质量的链路,中间有抖动的话会造成业务延时
#xiaoandyou技术总监, 兴业证券股份有限公司广东分公司
2019-06-05 09:31
很好,认真学习参考。
#michael1983技术经理, 某证券
2019-06-04 10:07
这个同城双活方案应该是比较成熟的技术方案了,两台metro之间用的同步的话,链路抖动不怕对业务造成影响吗?
#sunwu系统工程师, 合力金桥
2019-05-31 10:51
要是可以下载会更好

彬彬@sunwu 下载版本可以点击这个:http://www.talkwithtrend.com/activity/?id=1449

2019-06-17 13:56
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
© 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30