王鑫
作者王鑫·2023-08-25 17:36
技术文档·天玑数据

智能运维重点解读之天玑数据PBData数据库云平台:高可用

字数 4167阅读 591评论 0赞 0

引言

在云计算时代,数据库云平台的高可用性成为了企业关注的焦点。它通过实现预警、故障自恢复和降低系统影响等关键功能,保证了数据库云平台的连续稳定运行,并为企业提供了持久的数据存储和可靠的服务保障。只有具备强大的高可用性,数据库云平台才能在面对各种意外情况时确保数据的完整性和稳定性,从而实现企业的持续发展和业务的顺利运行。

那么,数据库云平台的高可用性体现在哪些方面呢?本文将介绍高可用性的概念、要素和天玑数据的PBData数据库云平台是如何实现高可用的。

1. 什么是高可用性

高可用性是确保业务系统在指定时间内连续运行而不发生故障的能力。然而,几乎没有任何事物能够永远保持不变的状态。对于日益复杂的IT系统架构来说,要保证系统100%正常几乎是不可能的。因此,我们使用SLA(服务等级协议)来衡量高可用性,通常定义在99%~100%之间。

可用性级别每年平均业务停机时间
99%87小时40分钟
99.9%8小时46分钟
99.99%52分钟36秒
99.999%5分钟16秒

以云计算的可用性级别来看,IaaS(基础设施即服务)最难,PaaS(平台即服务)次之,SaaS(软件即服务)最容易。目前行业普遍认可的标准是四个九,即可用性级别为99.99%,相当于每年52.6分钟的业务停机时间。

2. 为什么需要高可用

高可用性是至关重要的,能够确保关键业务系统即使在部分硬件、软件及系统中断或损坏期间也能继续正常运行。然而对于非计划内出现的IT业务系统异常,会导致经济上的损失、存在数据丢失的风险、企业品牌形象受损和用户的流失。

IT业务系统无法对外服务,故障的原因可大致分为4类,硬件故障、软件故障、环境故障和人为故障。

  • 硬件故障:硬件组件出现损坏,如存储设备、计算单元、处理元件;还有传输延迟和通信故障等网络方面的问题。
  • 软件故障:操作系统和应用系统异常问题,如响应超时、软件bug和错误;以及数据库所存储数据的可用性、一致性和完整性问题。
  • 环境问题:自然灾害问题导致数据中心瘫痪,如暴雨、龙卷风、雷电和高温。
  • 人为故障:人为配置或操作导致的问题,如参数配置不合理、资源分配不合理、误操作关机等。由于日常管理的疏忽(人为故障)而导致业务系统不可用的现象较为常见。

业务故障的原因

业务故障的原因

通过前面的介绍,大家已经对未规划高可用性的危害有了初步了解。那高可用性具体对IT业务系统有哪些好处呢?

  • 业务系统不间断运行

在关键业务运行期间,无论遇到任何硬件或软件问题,都能确保业务持续正常运行,避免业务中断。

  • 安全完整的数据

在业务运行期间,即使存储数据的设备出现损坏,也不会影响对数据的读写请求,从而确保数据的安全和完整性。

  • 简化运维

在出现计划外或灾难性故障时,业务系统不会停机,监控系统会触发相应的告警通知和处理方法,大大降低了运维的难度。

3. 如何设计数据库云平台高可用

设计高可用方案的思路可依据以下三个法则。

高可用设计法则

高可用设计法则

  • 避免发生
    顾名思义,就是如何避免关键业务系统出现无法运行的情况。
  1. 对硬件组件规划冗余,如二个电源,二个网口配置Bond和二台网络交换机等,这样单个硬件的损坏不会导致业务中断。
  2. 对业务系统规划架构冗余,搭建集群或主从架构,这样当业务系统的主节点无法运行时,备节点会主动切换到主节点并对外提供服务。
  • 降低影响
    当硬件或软件出现故障时,其冗余机制仅能够保证业务运行不中断,但是性能却无法得到保障,如何将影响降到最低?
  1. 采取分布式架构,硬件损坏对业务运行和性能几乎没有影响,包括对硬件进行扩容与减容时,能够做到在线进行,业务无感知。
  2. 多副本机制,存储设备损坏的情况下,也能保障业务数据的完整性和一致性。
  • 快速恢复
    无论如何设计避免发生的方案,实际上还是会出现极小概率业务中断的情况,此时需要让中断的业务尽快恢复正常。
  1. 通过监测实际业务,当业务中断时,自动将业务进行拉起。
  2. 若业务恢复后,遭遇无法启动或数据丢失时,可通过搭建的备份平台进行数据回滚,使业务能够恢复运行。

在实际业务环境中,计划外的业务中断问题时常发生,而后续故障排查和定位也十分困难。为了解决这些问题,引入监控系统成为必要措施。

  1. 监控系统可以在故障问题发生前发出异常信息的预警,使运维人员能够提前消除故障风险。
  2. 监控系统能够在故障问题发生时提供具体的故障信息,并给出处理的参考建议,方便运维人员快速定位问题。

因此,为了全面预防和保障关键业务系统的正常运行,监控系统是必不可少的。

4. PBData数据库云平台如何实现高可用

PBData数据库云平台是天玑数据自主研发的产品,具有以下主要特点:

  1. 一键快速申请:用户可以通过简单的操作,快速创建和申请多种数据库,包括Oracle(单实例,RAC集群)、MySQL(单实例,主从集群,MGR集群)、达梦(单实例,主备集群,DSC集群,读写分离集群)和OpenGauss(单实例,主备集群)等13种数据库的支持。
  2. 纳管与监控:PBData数据库云平台提供全面的纳管和监控功能,用户可以方便地管理和监控多种数据库的运行状态和性能指标,及时发现并解决潜在的问题。
  3. 日常运维操作:用户可以通过平台进行各种日常运维操作,如数据库的备份和恢复、性能调优、权限管理等,便捷地管理各种数据库实例,提高运维效率。
  4. 多种数据库支持:PBData数据库云平台支持多种主流数据库,涵盖了Oracle、MySQL、达梦和OpenGauss等13种常用数据库,满足企业不同数据库需求的同时提供一站式管理。
数据库版本架构操作系统
Oracle11g/12c/18c/19c单实例/RAC集群RedHat 7.9
MySQL5.7/8.0单实例/主从集群/MGR集群CentOS 7.6/7.9
PostgreSQL9.6/11.4单实例/主备集群CentOS 7.6
DMV8单实例/主备集群/DSC集群/读写分离集群CentOS 7.6KylinV10 SP1/SP2UOSV20 1050u2e
GBase8s单实例CentOS 7.6KylinV10 SP2
MSSQL2014/2016/2019单实例Windows Server 2016Windows Server 2019Windows Server 2022
MongoDB2.6/5.0单实例CentOS 7.6
Redis6.2单实例CentOS 7.6
OpenGauss3.0单实例/主备集群CentOS 7.6KylinV10 SP1/SP2
PanweiDB1.0单实例/主备集群KylinV10 SP1/SP2
MogDB3.0单实例/主备集群KylinV10 SP1/SP2
ANTDB6.3单实例/主备集群KylinV10 SP1/SP2
KingbaseV8单实例/主备集群KylinV10 SP2

该数据库云平台通过云数据库云主机云存储硬件监控平台等五个方面,实现了数据库云平台的高可用性。

 PBData数据库云平台高可用实现方案

PBData数据库云平台高可用实现方案

(1)云数据库

云数据库的高可用设计主要从架构备份两个层面进行考量。

  • 架构层面:推荐采用数据库集群架构,如RAC或DSC集群、主备集群、读写分离集群等,以确保即便单个数据库实例故障,仍能通过集群中的其他实例提供数据库服务。
  • 备份层面:云平台支持与备份一体机对接,定期备份数据库,防止故障发生时无法恢复或数据不一致。此外,数据库云平台还支持手动切换数据库主备关系和在线迁移数据库实例,以简化和安全进行数据库运维操作。

(2)云主机

  • 云主机故障

针对承载云主机的宿主机,支持以机柜服务器为单位配置 安全级别 ,确保在同一 互斥组 内的关联云主机分布不同的服务器或机柜,机柜级别的高可用性高于服务器级别。

宿主机以逻辑计算池划分,创建和开机云主机时,只从符合要求的服务器中选择运行,优先考虑配置优先启动节点。若不符合要求,则选择 计算池 内的其他节点。

通过安全级别、互斥组和计算池的组合,几乎不可能同时出现故障问题,保障关联的云主机高冗余级别,避免业务中断。

  • 云主机恢复

云主机具有较短的恢复时间优势,但如何实现故障后的自动恢复?通过故障转移技术,监控系统在检测到云主机异常时自动触发Failover机制,实现自动恢复。

故障转移技术确保云主机故障后的自动恢复,但当计算节点发生故障时,承载多个云主机的其他计算节点可能资源饱和,无法同时恢复所有云主机。针对此场景,PBData数据库云平台引入重要级别概念,优先恢复重要业务系统的云主机,并考虑同优先级或在恢复阶段中出现更高级别的云主机。

此外,快照与回滚功能也是提高云主机高可用性的一种方式。

(3)云存储

云存储采用分布式架构,支持 在线扩展硬盘或节点 ,并实现 自动的资源平衡 。新设备加入存储资源池后,系统会自动重新平衡,确保资源的均衡利用率。

云存储具备数据多副本机制软件故障域设定功能,支持2或3副本的数据,并且可以配置存储节点的安全级别(机柜级别或服务器级别),以确保在单盘或单物理节点故障的情况下自动切换业务并保障数据不丢失和业务的连续性。此外,云存储还支持容错容灾功能,能够自动快速进行故障恢复。

云存储还提供快照回滚功能,以及云存储的跨池迁移功能。这些功能可以帮助运维人员在维护或升级操作时确保云存储前端的读写服务不受影响。

(4)硬件

在硬件方面,实现高可用性的主要方式是通过冗余机制。

  • 服务器冗余:这包括服务器的冗余和内部部件的冗余。服务器冗余意味着至少使用两台服务器来承担相同的任务,以防止单点服务器故障导致业务系统中断。而内部部件的冗余是为了防止单个部件损坏而引发故障,常见的部件冗余包括网卡、电源和风扇等。
  • 网络交换机冗余:网络交换机的冗余方式与服务器冗余类似,此处不再重复描述。

(5)监控平台

以上四个方面围绕数据库云平台实现高可用性的方式通过监控平台来展现。该监控平台通过预警故障自恢复降低影响等功能协助运维人员确保业务系统的连续运行。PBData数据库云平台实际上就是这样一个监控平台,其主要目的是确保业务系统不中断运行。

5. 小结

综上所述,数据库云平台的高可用性体现在数据冗余和备份、故障检测与恢复、负载均衡、数据一致性和完整性保证等关键方面。只有在这些方面做好了高可用性的措施,企业才能确保数据库云平台的持续可用性,提供高可靠性的服务,为业务的持续发展提供强有力的支持。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

X社区推广