银行双活容灾 GPFS GPFS架构

【嘉宾分享】GPFS技术的应用跨中心双活架构与容灾探讨

关注1

参与6

1同行回答
全部行业
全部行业 银行
|
按赞同排序
按时间排序

jxnxsdengyu

系统工程师江西农信

1.GPFS SAN网络模式架构下的容灾和双活

如下图所示，我们将GPFS SAN网络模式架构在SiteB一模一样的搭建，SAN网络交换机和TCP/IP网络交换机通过SiteA和SiteB间的裸光纤级联，两个站点的节点既可能是GPFS服务端，也可能是GPFS客户端。于是乎我们可以得出两种设计方案：

a.容灾方案：两个站点的所有节点搭建一个GPFS集群，所有节点均作为Quarum Node，SiteA的存储数据盘作为业务数据盘和TiebreakerDisk,SiteA和SiteB的两个存储通过存储自身的实时同步复制功能，保持数据一致性，这样一来，有两种容灾的方式，一种是SiteB的所有节点作为GPFS客户端，通过跨站点的TCP/IP网络，访问SiteA的GPFS服务端；另一种是SiteB的所有节点作为GPFS服务端，通过跨站点的SAN网络，访问SiteA的存储。这两种方式的差别在于第一种方式为：SiteB节点的GPFS文件系统读写I/O路径为跨站点的TCP/IP网络+SiteA的SAN网络；第二种方式为：SiteB节点的GPFS文件系统读写I/O路径为跨站点的SAN网络。所以在SiteB端，第一种方式的I/O路径略长于第二种方式。这两种方式的相同点在于存储的业务数据和TiebreakerDisk信息均通过存储的同步复制技术保持实时同步，为了实现站点级容灾，两种方式均需要编写脚本，判断 SiteA节点是否都活动，否则将自动将切换存储卷至SiteB,SiteB节点自动将GPFS服务拉起，继续对外提供服务。

所以总结GPFS SAN网络模式架构的容灾，可以得出，以上两种方式下的SiteB站点节点读写性能和稳定性需要重点关注；SiteB节点和存储全部故障不会对SiteA的GPFS访问造成影响；SiteA一半节点故障不会影像GPFS访问；SiteA两个节点或者TiebreakerDisk均故障需要触发脚本，使得存储盘切换至灾备端，SiteB全部节点启动GPFS服务，继续提供GPFS访问。

b.双活方案：GPFS SAN网络模式架构的跨站点双活方案，可以考虑两种方式，见下图一和图二。

图一：

图二：

图一为SAN网络模式架构模式容灾方案的延伸版，通过应用负载均衡地把服务请求分发至SiteA和SiteB两个站点，两个站点的所有节点均提供应用服务，SiteA节点的应用在本地对GPFS文件系统读写，SiteB节点的应用跨站点对GPFS文件系统读写。另外，SiteA节点既作为GPFS Servers,同时又担任Application Node，而SiteB节点既可按照容灾方案的第一种方式作为GPFS客户端，又可按照容灾方案的第二种方式作为GPFS的服务端。简单总结这种方式来说，两个站点的节点GPFS I/O读写路径和性能存在些许差异；

而图二将SiteA的NSD Server与Application Node分置于不同节点，SiteA和SiteB节点全部作为GPFS客户端，两个站点的节点GPFS I/O读写路径和性能一致。

当然，上述两种双活方案均是建立在容灾方案的基础之上，SiteA和SiteB的所有节点均加入一个GPFS集群中，利用存储到存储的同步复制功能，SiteA的TiebreakerDisk仲裁，自动探测与自动切换脚本也是必须的。

2.GPFS NSD服务模式架构下的容灾和双活

GPFS NSD服务模式下的容灾、双活和SAN网络模式架构容灾、双活有很大的不同，见下图所示。

a.SAN网络模式的容灾架构是需要存储的跨站点同步复制的，数据同步网络为SAN光纤网络；而NSD服务模式的容灾架构是通过两个站点的GPFS Server间进行数据复制和同步的，是跨站点NSD DISK与NSD DISK间的同步，数据同步网络为TCP/IP网络。基于SAN光纤网络的同步带宽、速率和TCP/IP网络会有差异，所以NSD服务模式的容灾架构的数据同步网络最好是Infiniband或者万兆TCP/IP网络,来提升整个数据同步的速率，避免同步带来的I/O性能损耗。

b.SAN网络模式的容灾架构下，两个站点GPFS读写I/O路径和性能不对称；而NSD服务模式的容灾架构下，两个站点GPFS读写I/O路径和性能非常对称，每个节点均读写各自站点的NSD数据盘。

c.SAN网络模式的容灾架构设立了TiebreakerDisk，来保证2N+1的仲裁数量；而NSD服务模式的容灾架构不需要设立TiebreakerDisk，取而代之的是第三站点仲裁节点。

d.SAN网络模式的容灾架构为了实现站点故障时，GPFS服务的自动切换功能，需要加入自动化监控和切换脚本（可考虑TSA软件）；而NSD服务模式的容灾架构无需考虑这点，因为两个站点的所有节点均为Quarum Node，组成一个集群，两个站点节点数量对等，总共2N+1的仲裁数量，SiteA的N个节点故障，不会影响整个集群故障，SiteB仍然可以对外提供GPFS文件系统读写。

3.GPFS无共享模式下的容灾和双活

GPFS无共享模式作为分布式GPFS文件系统模式，在大数据方面，应用越来越广泛。另外它对GPFS性能的提升和扩展能力的提升，起着非常重要的作用。那么这种模式架构下的容灾和双活又是如何的呢？如下图所示：

我们将同一个GPFS集群中所有的GPFS-FPO节点拉开，均匀分布于不同的两个站点，所有节点既是GPFS服务端，又是GPFS客户端，同时还是应用软件的服务节点，两个站点的TCP/IP网络或者Infiniband网络通过裸光纤级联，并通过应用负载来接入服务请求和均衡分发服务请求，最终实现跨中心的双活应用服务。这里主要利用了GPFS-FPO的四大特性：

a.位置感知特性：由于GPFS文件系统的数据是打散在不同节点的不同存储当中，所以每个GPFS节点的读写操作都需要知道究竟文件都在哪个节点存放着，所以GPFS-FPP在缓存中专门划了一片区域，来存储存储块数据的位置信息和副本信息，也叫GPFS-MAP，无论哪个节点想要读取GPFS的哪个存储块，均会通过GPFS-MAP找到所在的节点和具体位置。

b.可配置的写亲和性：GPFS-FPO的写亲和性是指某节点的应用程序需要进行GPFS读操作时，在本节点的本地存储就能读取到的能力。对于这种能力，GPFS-FPO是可以进行设置的，当设置为write striping（写条带化）时，所有GPFS节点均衡分布着数据，某一节点的读操作可能从本地无法获取，需要通过网络（GPFS客户端）的方式从其他节点读取；当设置为write affinity时，可以设置某部分文件集属于某节点专属，或者所有节点均包含相同的存储数据，这样所有节点的读操作均能在本地获得。

c.管道复制：所有GPFS节点通过专属的网络连通，当某一节点应用对GPFS写数据时，写入该节点的存储数据，同时也会通过管道复制至其他多个节点的存储。

d.快速恢复：当某一GPFS节点故障时，该节点的存储也离线，但整个GPFS并不会丢失该存储数据，其他节点的存储依旧有相同的数据副本，继续提供读写访问。当故障节点恢复后，也能通过其他节点的副本数据，快速恢复新增变化数据。

基于以上四点，我们可以看出，GPFS无共享模式架构对某些应用场合来说，也是非常适合搭建跨中心的应用双活架构。

收起

银行 · 2017-04-21

查看赞同的人

【嘉宾分享】GPFS技术的应用跨中心双活架构与容灾探讨

1同行回答
全部行业
全部行业 银行
|
按赞同排序
按时间排序

提问者

问题来自

相关问题

相关资料

相关文章

问题状态

【嘉宾分享】GPFS技术的应用跨中心双活架构与容灾探讨

1同行回答全部行业全部行业银行|按赞同排序按时间排序

提问者

问题来自

相关问题

相关资料

相关文章

问题状态

1同行回答
全部行业
全部行业银行
|
按赞同排序
按时间排序