双活数据中心建设系列之--- 基于软件架构的双活数据中心建设方案深入探讨(并行Oracle部分)

字数 4570阅读 3958评论 1赞 9

并行DB介绍与探讨

在前面的“双活数据中心建设系列之---基于软件架构的双活数据中心建设方案深入探讨（GPFS部分）”中，我们详细介绍了GPFS的三种模式架构以及其容灾和双活方式，这是对需要共享存储的应用系统，利用软件架构的方式，去实现跨中心的应用双活，那么又该如何基于软件架构，去实现OLTP数据库的跨中心双活呢？
这里我们需要提到并行DB的概念：并行数据库系统的目标是高性能和高可用性，通过多个处理节点并行执行数据库任务，提高整个数据库系统的性能和可用性。
性能指标关注的是并行数据库系统的处理能力，具体的表现可以统一总结为数据库系统处理事务的响应时间。并行数据库系统的高性能可以从两个方面理解，一个是速度提升，一个是范围提升。速度提升是指，通过并行处理，可以使用更少的时间完成数据库事务。范围提升是指，通过并行处理，在相同的处理时间内，可以完成更多的数据库事务。并行数据库系统基于多处理节点的物理结构，将数据库管理技术与并行处理技术有机结合，来实现系统的高性能。
可用性指标关注的是并行数据库系统的健壮性也就是当并行处理节点中的一个节点或多个节点部分失效或完全失效时，整个系统对外持续响应的能力。高可用性可以同时在硬件和软件两个方面提供保障。在硬件方面，通过冗余的处理节点、存储设备、网络链路等硬件措施，可以保证当系统中某节点部分或完全失效时，其它的硬件设备可以接手其处理，对外提供持续服务。在软件方面，通过状态监控与跟踪、互相备份、日志等技术手段，可以保证当前系统中某节点部分或完全失效时，由它所进行的处理或由它所掌控的资源可以无损失或基本无损失地转移到其它节点，并由其它节点继续对外提供服务。
为了实现和保证高性能和高可用性，可扩充性也成为并行数据库系统的一个重要指标。可扩充性是指，并行数据库系统通过增加处理节点或者硬件资源（处理器、内存等），使其可以平滑地或线性地扩展其整体处理能力的特性。
那么基于以上的并行DB的高性能和高可用性概念，如何去理解并行DB的架构呢？又该如何去设计并行DB的跨中心双活架构呢？由于数据库产品众多，这里只挑选两款企业OLTP数据库系统用得非常多、认可度高的产品：ORACLE和DB2，进行深入的探讨。

Oracle RAC

对于Oracle RAC，想必大家已经非常了解了，那么下面开始一步步引导大家逐步过渡至跨中心双活的并行Oracle架构。
一.存储架构层
文件系统的选择是并行Oracle的关键。传统的文件系统不支持多系统的并行挂载。因此，必须将Oracle数据文件存储在支持多系统并发访问的文件系统中。这样并行Oracle节点才能同时对共享的文件系统进行读写操作。这里主要有三种方式来实现：
（1）自动存储管理（ASM）
ASM提供了一个纵向的统一管理的文件系统和卷标管理器，专门用于建立Oracle数据库文件。ASM可以提供文件系统给多个Oracle RAC的集群节点。ASM无需再手动调节I/O，它会自动的分配 I/O 负载到所有的可用资源中，从而优化性能。ASM可以维护数据的冗余备份，从而提高故障的容错。它也可以被安装到可靠的存储机制中。
（2）通用并行文件系统（GPFS）
前面已经详细介绍了，用在并行Oracle架构的话，GPFS的SAN模式架构和NSD服务模式均可。它相对于ASM这样一个黑盒子来说，优势主要体现在可视化、管理能力和灵活性上，但ASM是专用于的Oracle RAC产品，对非条带化的磁盘数据也能分布均匀，I/O均匀。
（3）存储双活
这里说的存储双活并不是单一存储中的控制器双活，而是两台存储的A-A模式，如在“基于SVC的三种主流双活数据中心架构深入探讨”活动中探讨的SVC Enhanced Stretched Cluster和SVC HyperSwap，通过这种存储双活的架构结合并行Oracle，也是一种非常好的想法，Oracle RAC节点可以分别挂载不同的A-A存储，而无需考虑底层存储间的同步和双活过程，相当于把并行文件系统的功能交由底层存储硬件去实现，Oracle RAC节点纯粹做好并行Oracle的工作即可，并且这种架构少了一层（ASM/GPFS）文件系统层，I/O深度更浅。
二.并行Oracle软件架构层
Oracle RAC的软件层是在多个节点上运行多个数据库实例，利用多个节点组成一个数据库，这样在保证了数据库高可用性的情况下更充分的利用了多个主机的性能，而且可以通过增加节点进行性能的扩展。实现Oracle RAC需要解决的关键问题就是多节点进行数据访问时如何保证数据的一致性，Oracle是通过各节点间的私有连接进行内存融合（cache fusion）来保证各节点数据访问的一致性。
什么是cache fusion？这是Oracle RAC的重要概念，它是通过Oracle RAC节点间的互连网络，在各节点的 SGA 之间进行块数据传递，以实现SGA数据块共享和一致性。它相当于把所有节点实例的SGA虚拟成一个大的SGA区，每当不同的实例请求相同的数据块时，这个数据块就通过互连网络在实例间进行传递。这样一种方式可以避免不同实例需要相同数据块时，首先将块推送到磁盘，然后再重新读入其他实例的缓存中这样一种低效的实现方式。当一个数据块被读入 RAC 环境中某个实例的缓存时，该块会被赋予一个锁资源，以确保其他实例知道该块正在被使用。之后，如果另一个实例请求该块的一个副本，而该块已经处于前一个实例的缓存内，那么该块会通过互连网络直接被传递到另一个实例的 SGA。如果内存中的块已经被改变，但改变尚未提交，那么将会传递一个修改块副本。这就意味着只要可能，数据块无需写回磁盘即可在各实例的缓存之间移动，从而避免了同步多实例的缓存所花费的额外 I/O。很明显，不同的实例缓存的数据可以是不同的。所以，一个实例要访问特定数据块，并且之前该实例从未访问过该数据块，那么它要么从其他实例 cache fusion 过来，要么从磁盘中读入。
既然cache fusion如此重要，要发挥cache fusion的作用，要有一个前提条件，那就是互连网络的速度要比访问磁盘的速度要快。否则，就根本没有引入cache fusion的意义。但是这样又带来了另外一个问题，随着Oracle RAC节点数的不断增加，节点间通信的成本也会随之增加，当到某个限度时，增加节点可能不会再带来性能上的提高，甚至可能造成性能下降。这个问题的主要原因是 Oracle RAC对应用透明，应用可以连接至集群中的任意节点进行处理，当不同节点上的应用争用资源时，RAC 节点间的通信开销会严重影响集群的处理能力。所以通常而言，Oracle RAC 更多情况下用来提高可用性，而不是为了提高扩展性和性能。但是对于使用 ORACLE RAC 有以下三个建议：
（1）节点间通信尽量使用高速互连网络。
（2）每个ORACLE数据页面使用较少的行，通过数据库分区来避免热页面。
（3）尽可能将不同的应用分布在不同的节点上，利用业务分割的方式，来保证整体Oracle RAC的系统性能。业务分割的根本在于尽量使不同的实例不能访问相同的数据块，这样业务分割规则可以小到表的级别，大到表空间、Schema的级别。
可以看到，建议（2）和建议（3）实际上又削减了Oracle RAC的应用透明度，可见并行DB要同时提高高可用性、扩展能力、性能和应用透明度是十分艰难的。
三.跨中心的存储架构和并行Oracle扩展
前面谈到了并行Oracle存储架构的三种方式，那么这三种方式被拉伸至两个数据中心后，存储架构和并行Oracle又该如何扩展呢？
（1）自动存储管理（ASM）
Oracle RAC节点被拉开至两个站点后（Oralce Extend RAC），为了保证两个站点的存储数据一致，需要在所有节点操作系统层识别两个存储，并做LVM镜像。所有节点通过ASM对LV裸设备或者文件系统进行读写操作。如果SiteA的存储作为主存储，那么SiteA的某一节点的写入操作需要如下过程：SiteA节点写SiteA存储，同时跨站点写SiteB存储，所有存储均写返回后，代表一次写入操作完成。SiteB的某一节点的写入操作需要如下过程：SiteB节点写SiteB存储，同时跨站点写SiteA存储，所有存储均写返回后，代表一次写入操作完成。所以这种方式下，一次写操作的速度取决于最慢的存储。另外cache fusion是基于TCP/IP或者Infiniband的跨站点融合，对两个站点间的带宽、衰减和稳定性有很高的要求。

Oracle_ASM.JPG

（2）通用并行文件系统（GPFS）
在单一站点的话，GPFS的三种模式中的SAN模式架构和NSD服务模式架构都是可以胜任并行Oracle的存储架构的。SAN模式架构是Oracle RAC节点通过SAN网络共享存储，再在共享存储之上建立GPFS文件系统，Oracle的数据库文件存储在GPFS文件系统中，最终实现两个Oracle RAC节点并行对GPFS文件系统读写的功能。当SAN模式架构扩展至两个站点的话，两个站点的存储需要保持实时同步，但是SiteB的Oracle RAC节点只能通过SAN网络或者TCP/IP网络访问SiteA的共享存储，对于OLTP数据库来说，站点B的RAC节点I/O访问路径过长，性能不够稳定，而且前面提及的cache fusion需要跨站点通讯，两个数据中心的距离不宜太远。所以这种模式并不理想；NSD服务模式架构是Oracle RAC节点通过SAN网络分别挂载不同的存储盘，Oracle RAC节点均作为NSD SERVER，数据一致性是通过NSD盘间的实时复制保持的，通讯网络为TCP/IP网络或者INFINIBAND网络。当NSD服务模式架构扩展至两个站点，每个站点均包含一个Oracle RAC节点和一套存储，这种模式下，每个站点的RAC节点访问各自站点的存储，存储数据块的同步为跨站点的NSD间的同步，通过跨站点的网络实现，每个站点的RAC节点I/O深度浅，路径短，但考验的是数据一致性、跨站点NSD实时同步和cache fusion的效率，最起码需要万兆或者INFINIBAND网络级联。

Oracle_GPFS1.JPG

Oracle_GPFS2.JPG

（3）存储双活
前面也讲了，当Oracle RAC的存储拉开至两个站点后，从底层存储的角度来看，这种方式较为理想，两个站点的RAC节点无需关心存储是否共享，底层存储会做好数据层所有数据同步的工作，RAC节点I/O深度浅，路径短，带宽高。相比前面两种方式，在跨中心并行Oracle的存储架构来说，最为合适，当然这里也需要考虑Oracle RAC节点间的cache fusion的效率，不建议过高并发的数据库系统需求，跨中心Oracle RAC节点的数量也需要控制。