lengxf2008
作者lengxf2008·2016-11-15 11:55
其它·铁岭市社保信息中心

社保信息系统存储高可用和容灾解决方案的实现

字数 4479阅读 5092评论 0赞 0

社会保险是个社会民生问题,关系到所有参保人员的切身利益,我们对数据安全的保护一直高度重视,并不断加强信息系统数据灾备建设。在2009年较早实现同城数据灾备的基础上,为进一步提高重大灾难风险防范能力,结合“十二五”期间国家人社部“金保二期”的总体建设要求,我们于2012年底全面启动我们的金保工程二期的建设工作。在数据灾备方面,我们的目标是建成由本地生产中心、同城灾备中心、省城异地灾备中心组成的“两地三中心”模式的整体数据容灾体系,力争做到数据备份的 “0”丢失要求。为打造具有核心竞争优势的现代化服务水平奠定了坚实的信息科技风险防范基础。

到目前,已经建设完成了本地生产中心和同城灾备中心的建设工作,与省异地灾备中心的建设工作即将展开。

其建设规划技术方案和基本实施情况简述如下:

一、基本技术方案

1、本地存储高可用建设规划方案考虑

基于本地的实际情况综合考虑,经过与各厂商技术专家的反复交流,研究。在技术选择上,以AIX系统结合LVM Mirror技术来实现高可靠性和业务连续性的要求。

Logical Volume Manager(LVM)是 AIX 系统上用于逻辑卷管理的软件。LVM 本身提供 Logical Volume (LV)数据在多个 Physical Volume (PV)之间做数据镜像的功能,以达到存储的本地高可用性。在 LVM Mirror 应用中写 I/O 与底层设备交互。其基本原理如下图

当服务器发出写 I/O 时,该 I/O 在 Parallel 模式下会同时并行发送到两台存储设备上。如上图中 Step 1, Step 2 和 Step 1’, Step 2’。只有当 Step 2 和 Step 2’都完成时,一个写 I/O 才会被服务器认为完成。

2、基于同城数据容灾方面的方案考虑

考虑到社会保险信息化建设应用的实际情况,在灾备方面应该重点以数据级灾备更适合目前的应用需要。所以在灾备建设方案的选择上有几种考虑。一种是基于硬件的;一种是基于软件的;或者是基于硬件和软件相结合的。

就目前的产品来说,基于这些要求的产品比较多,结合上述高可用和业务连续性考虑,首先选择了基于这些功能的产品,如V7000等产品,V7000目前提供MetroMirror和GlobalMirror两种高级复制功能。异步(Global Mirror)功能的设计目的在于针对业务连续性和灾难恢复提供几乎不受距离限制的长距离异步远程复制能力。在 V7000 中,同步(MetroMirror)和异步可以作为同一项功能实现,以便灵活地实现镜像(远程复制)功能,而且对现有的同步复制用户不再收取任何许可证费用,以帮助降低总成本。

基于本地的AIX LVM Mirror方案

结合 V7000 Metro Mirror 解决方案其优点是显而易见的:它可以为我们的基础架构提供本地存储高可用保护的同时,也提供存储级同城容灾的能力。

但是在本方案中,由于生产端服务器的 AIX LVM 的 LV Copy 存在两份,而容灾端只有一份,因此在容灾端的单份 Copy 对容灾切换的影响成为我们的关注点,主要有以下几点:

容灾切换时影响:容灾端应用在单份 Copy 情况下其 LVM VG 和应用是否能正常拉起,以及相应 RTO 影响。

生产回切时影响:生产端 LVM Mirror 能否正常重新同步,及其对生产的性能影响。

整个操作流程复杂度较大。以目前自身的技术能力较难完成,需要委托第三方人员来完成。

3、基于 “二地三中心”数据灾备系统方案的考虑

考虑到目前的应用情况,主要以数据级灾备为主来考虑,前述的这些问题在目前的应用环境下也可以接受,而且国家人社部金保工程二期建设规划要求中,特别明确了省级大集中的建设要求,这些都是为下一步应用打下良好的基础。随着业务应用发展的要求,系统高可靠性和业务连续性对数据安全可靠性有更进一步要求,省信息中心也在考虑对各地的数据做数据灾备工作,我们就结合省数据灾备要求来进一步提高我们数据灾备的安全等级,与省中心建成一个基于数据级的“二地三中心”数据灾备系统。

4、结合技术方案的产品选型考虑

从设备技术以及综合其他方面的考虑,象DS8000系列的存储价格较高,V7000具备的条件就成了我们的较好选择,它的性能也能够满足我们目前的要求,还提供MetroMirror和GlobalMirror两种高级复制功能。异步(Global Mirror)功能的设计目的在于针对业务连续性和灾难恢复提供几乎不受距离限制的长距离异步远程复制能力。

V7000的复制方式比较:

(1)MetroMirror/同步复制

当来自服务器的更新被写往本地连接的V7000缓存,该系统将数据转发给远地点连接的V7000的缓存。只有当两个V7000集群的缓存都拥有数据的拷贝以后本地系统才会向处理器返回一个I/O完成指示。同步远程拷贝能够在远地点提供最新程度的数据当前值,但应用程序会因等待写I/O操作的完成而被延迟。

(2)GlobalMirror/异步复制

在GlobalMirror复制中,来自服务器的更新被写往本地V7000的缓存,该系统立即向服务器返回一个I/O完成指示。更新在很短的一段时间以后被送往一个远程V7000缓存。异步远程拷贝对应用程序性能的影响最小,但远程磁盘系统在数据最新性方面与本地系统相比会有一个延迟。

(3)Easy Tier/自动分层存储

Easy Tier能够将常被访问的数据自动迁移到高性能的固态驱动器中,从而提高利用效率。EasyTier功能运行在细粒度的“子LUN”环境中,能够基于IO模式和驱动器特征将数据片段自动转移到适当级别的驱动器上,无需管理员的进一步互动。Easy Tier还允许您在不中断系统运行的情况下手动调整整个逻辑卷的位置,从而进一步提高灵活性和控制力,允许企业根据应用需求来更加有效地调节系统性能。

Easy Tier允许您轻松省钱地部署SSD。Easy Tier允许您创建混合型存储资源池并且在托管磁盘组群中将存储资源分割成两层,通常是SSD和HDD。此外,Easy Tier也支持其他的分层方法和定义。

找出最繁忙的子LUN数据单元并且将它们自动转移到高性能SSD中,剩下的数据单元可利用容量更大的低价位驱动器来创造最佳客户价值。

系统可自动监控和管理SSD或HDD托管磁盘组群中的卷,您也可以通过将热点数据块转移到SSD并且将冷点数据块转移到HDD来自动处理它们。

所以,我们在存储设备技术选型上,选择了在生产区以二台V7000 以LVM Mirror来完成;在灾备中心选择了一台V7000,配置了MetroMirror和GlobalMirror两种高级复制功能的授权等功能,来实现数据灾备和高可靠性及业务连续性的规划设计要求。

二、存储建设方案的实施

1、存储实施方案的综合考虑

在项目建设实施前,分别对各部分内容的技术方案与实际产品的实施进行了充分的讨论,从实施人员的综合能力、对各产品的熟悉程度,以及业务应用特点要求、相关应用实施经验、项目进度要求等多方面考虑,制定具体的实施方案,确保实施的可行性和可靠性,力争达到全部建设规划方案的设计要求。

比如,同城灾备设计要求从前期的异步数据复制方式,提高到本期的同步数据复制方式。所以对V7000的MetroMirror/同步复制和 GlobalMirror/异步复制的技术要求进行过反复讨论。由于受网络条件的约束,以及业务应用环境特点影响,最后没有完全按照建设规划方案的设计要求去实施。取而代之的是在本地的高可靠性方面仍然采用了AIX系统结合LVM Mirror技术来实现,并结合Oracle数据库RAC技术,从数据保护和业务保障两方面,共同实现本地产生系统的高可靠性和业务连续性设计要求。

而数据灾备系统的实现是基于应用的Oracle的ODG准数据同步方案来实施的。

由于我们业务应用环境的需要,在生产区和交换区之间还有一个数据实时同步要求;在交换区与公共服务区还有一个定时的数据同步要求,这些数据同步要求都是以Oracle的OGG数据同步方案来实现。

2、“二地三中心”数据灾备模式的建设考虑

目前的生产环境和本地同城灾备的建设已经建成使用1年多了,使用效果运行良好,基本达到了原来建设规划方案中对数据安全的规划要求。

对于省灾备系统建设的统一安排,即将要进入研讨具体方案和实施阶段,重点应该是真对目前的实际环境,确定具体的实施方案。

目前省灾备中心的初步方案是基于Oracle数据库系统的OGG方案来实现数据复制。按照传统的存储数据复制模式来看,主要有串行和并行两种模式。串行模式中,存储数据由生产中心同步复制到同城灾备中心,再由同城灾备中心异步复制到异地灾备中心;同城灾备中心发生异常,将导致异地灾备数据复制停顿。并行模式中,存储数据同时由生产中心向同城灾备中心同步复制、向异地灾备中心异步复制;生产中心发生异常,异地灾备数据将发生数据丢失。因此这两种模式都不能很好满足 “两地三中心”灾备数据复制“0”丢失要求。

至于最终采用何种模式,需要结合当前应用环境,灾备环境模式,业务数据安全要求以及省灾备中心的统一考虑等多方面,进行综合考虑,探讨,最终确定我们的“二地三中心”的实施方案并实施完成。

3、进一步完善数据灾备建设的思考

通过我们的信息系统高可靠性和数据灾备系统的建设,使我们认识到,即使再好的方案,也需要相适应的应用环境来支持配合。由于目前的多方面条件约束,即使“二地三中心”的模式也不能完全保证灾备数据复制“0”丢失要求。因此选择一个适合自己应用环境当前急需的方案才是最重要的。

随着技术和设备的发展进步,后续数据保护建设工作还有很多工作要做。虽然当前“双活”模式的呼声以及研究成果已经很多了,但各方面条件还不是很成熟,当能够真正实现了“双活”才能最大限度的保证数据复制的“0”丢失问题。而且每种方案都需要适合的应用环境支持,还包括投资条件,实施,运维,以及相关管理能力和措施等多方面的能力支持。

从我们的应用环境建设情况看,还有以下几个方面要多做一些工作,才能既做好当前的数据安全保护工作,又可以为进一步的信息系统数据安全保护做充分的准备工作。

继续完善目前应用环境下的数据保护方案的建设工作,尽可能做好并不断完善目前数据保护要求建设、维护及管理工作。
加强数据保护的运维、管理工作,完善各种管理制度和管理流程,培养这方面的建设管理人员。不是建了一套灾备系统就完成任务了,要应用好,管理好,要在实际应用中发挥作用。
结合本行业的应用需求,跟踪新技术发展,在各方面条件允许的情况,完善信息系统和数据保护措施,进一步提高信息系统的可靠性和业务连续性,以及数据保护的灾备系统的建设管理工作。
围绕上级部门统一的规划建设要求,应做到既能满足我们当前环境下的建设应用要求,又能根据技术发展方向,选择成熟的技术方案,进一步完善信息系统的数据保护措施,提高信息系统的高可靠性、数据安全性从而保障业务应用的连续性。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广