在云计算时代,数据库云平台的高可用性成为了企业关注的焦点。它通过实现预警、故障自恢复和降低系统影响等关键功能,保证了数据库云平台的连续稳定运行,并为企业提供了持久的数据存储和可靠的服务保障。只有具备强大的高可用性,数据库云平台才能在面对各种意外情况时确保数据的完整性和稳定性,从而实现企业的持续发展和业务的顺利运行。
那么,数据库云平台的高可用性体现在哪些方面呢?本文将介绍高可用性的概念、要素和天玑数据的PBData数据库云平台是如何实现高可用的。
高可用性是确保业务系统在指定时间内连续运行而不发生故障的能力。然而,几乎没有任何事物能够永远保持不变的状态。对于日益复杂的IT系统架构来说,要保证系统100%正常几乎是不可能的。因此,我们使用SLA(服务等级协议)来衡量高可用性,通常定义在99%~100%之间。
可用性级别 | 每年平均业务停机时间 |
---|---|
99% | 87小时40分钟 |
99.9% | 8小时46分钟 |
99.99% | 52分钟36秒 |
99.999% | 5分钟16秒 |
以云计算的可用性级别来看,IaaS(基础设施即服务)最难,PaaS(平台即服务)次之,SaaS(软件即服务)最容易。目前行业普遍认可的标准是四个九,即可用性级别为99.99%,相当于每年52.6分钟的业务停机时间。
高可用性是至关重要的,能够确保关键业务系统即使在部分硬件、软件及系统中断或损坏期间也能继续正常运行。然而对于非计划内出现的IT业务系统异常,会导致经济上的损失、存在数据丢失的风险、企业品牌形象受损和用户的流失。
IT业务系统无法对外服务,故障的原因可大致分为4类,硬件故障、软件故障、环境故障和人为故障。
通过前面的介绍,大家已经对未规划高可用性的危害有了初步了解。那高可用性具体对IT业务系统有哪些好处呢?
在关键业务运行期间,无论遇到任何硬件或软件问题,都能确保业务持续正常运行,避免业务中断。
在业务运行期间,即使存储数据的设备出现损坏,也不会影响对数据的读写请求,从而确保数据的安全和完整性。
在出现计划外或灾难性故障时,业务系统不会停机,监控系统会触发相应的告警通知和处理方法,大大降低了运维的难度。
设计高可用方案的思路可依据以下三个法则。
在实际业务环境中,计划外的业务中断问题时常发生,而后续故障排查和定位也十分困难。为了解决这些问题,引入监控系统成为必要措施。
因此,为了全面预防和保障关键业务系统的正常运行,监控系统是必不可少的。
PBData数据库云平台是天玑数据自主研发的产品,具有以下主要特点:
数据库 | 版本 | 架构 | 操作系统 |
---|---|---|---|
Oracle | 11g/12c/18c/19c | 单实例/RAC集群 | RedHat 7.9 |
MySQL | 5.7/8.0 | 单实例/主从集群/MGR集群 | CentOS 7.6/7.9 |
PostgreSQL | 9.6/11.4 | 单实例/主备集群 | CentOS 7.6 |
DM | V8 | 单实例/主备集群/DSC集群/读写分离集群 | CentOS 7.6KylinV10 SP1/SP2UOSV20 1050u2e |
GBase | 8s | 单实例 | CentOS 7.6KylinV10 SP2 |
MSSQL | 2014/2016/2019 | 单实例 | Windows Server 2016Windows Server 2019Windows Server 2022 |
MongoDB | 2.6/5.0 | 单实例 | CentOS 7.6 |
Redis | 6.2 | 单实例 | CentOS 7.6 |
OpenGauss | 3.0 | 单实例/主备集群 | CentOS 7.6KylinV10 SP1/SP2 |
PanweiDB | 1.0 | 单实例/主备集群 | KylinV10 SP1/SP2 |
MogDB | 3.0 | 单实例/主备集群 | KylinV10 SP1/SP2 |
ANTDB | 6.3 | 单实例/主备集群 | KylinV10 SP1/SP2 |
Kingbase | V8 | 单实例/主备集群 | KylinV10 SP2 |
该数据库云平台通过云数据库、云主机、云存储、硬件和监控平台等五个方面,实现了数据库云平台的高可用性。
云数据库的高可用设计主要从架构和备份两个层面进行考量。
针对承载云主机的宿主机,支持以机柜或服务器为单位配置 安全级别 ,确保在同一 互斥组 内的关联云主机分布不同的服务器或机柜,机柜级别的高可用性高于服务器级别。
宿主机以逻辑计算池划分,创建和开机云主机时,只从符合要求的服务器中选择运行,优先考虑配置优先启动节点。若不符合要求,则选择 计算池 内的其他节点。
通过安全级别、互斥组和计算池的组合,几乎不可能同时出现故障问题,保障关联的云主机高冗余级别,避免业务中断。
云主机具有较短的恢复时间优势,但如何实现故障后的自动恢复?通过故障转移技术,监控系统在检测到云主机异常时自动触发Failover机制,实现自动恢复。
故障转移技术确保云主机故障后的自动恢复,但当计算节点发生故障时,承载多个云主机的其他计算节点可能资源饱和,无法同时恢复所有云主机。针对此场景,PBData数据库云平台引入重要级别概念,优先恢复重要业务系统的云主机,并考虑同优先级或在恢复阶段中出现更高级别的云主机。
此外,快照与回滚功能也是提高云主机高可用性的一种方式。
云存储采用分布式架构,支持 在线扩展硬盘或节点 ,并实现 自动的资源平衡 。新设备加入存储资源池后,系统会自动重新平衡,确保资源的均衡利用率。
云存储具备数据多副本机制和软件故障域设定功能,支持2或3副本的数据,并且可以配置存储节点的安全级别(机柜级别或服务器级别),以确保在单盘或单物理节点故障的情况下自动切换业务并保障数据不丢失和业务的连续性。此外,云存储还支持容错和容灾功能,能够自动快速进行故障恢复。
云存储还提供快照与回滚功能,以及云存储的跨池迁移功能。这些功能可以帮助运维人员在维护或升级操作时确保云存储前端的读写服务不受影响。
在硬件方面,实现高可用性的主要方式是通过冗余机制。
以上四个方面围绕数据库云平台实现高可用性的方式通过监控平台来展现。该监控平台通过预警、故障自恢复和降低影响等功能协助运维人员确保业务系统的连续运行。PBData数据库云平台实际上就是这样一个监控平台,其主要目的是确保业务系统不中断运行。
综上所述,数据库云平台的高可用性体现在数据冗余和备份、故障检测与恢复、负载均衡、数据一致性和完整性保证等关键方面。只有在这些方面做好了高可用性的措施,企业才能确保数据库云平台的持续可用性,提供高可靠性的服务,为业务的持续发展提供强有力的支持。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞0
添加新评论0 条评论