数据是企业的核心资产,数据备份可以有效应对系统运行过程中的存在的数据损失风险,是业务连续性的保障。随着云计算、大数据等新技术的广泛应用,传统基于结构化数据备份的数据备份模式面临着以下三方面的挑战:
为应对新的备份恢复场景,数据备份系统也需要与时俱进。本文从保险企业数据备份系统建设的实际需求出发,充分利用重复数据删除等数据备份技术,来优化传统备份架构,从而完成备份系统建设方案的规划设计,希望对同行有一定的借鉴和参考价值。
完整的备份系统一般包括备份管理系统、备份介质、备份网络以及备份策略。结合我司的实际情况,备份系统需要满足以下方面的需求:
备份管理系统主要包括备份软件和备份管理服务器这两类组件。
备份软件方面的工作包括:备份软件选型和备份软件架构规划。
选型可参考的因素包括:场景适应性、技术支持服务能力、成熟度、 Gartner 企业级备份与恢复软件的评测、运维人员技能储备等等。通过备份软件 POC 测试,以确定最终选型,测试项规划为下表:
规划生产、灾备、邮箱归档域等备份域,按照主流备份软件架构实践,采用经典的三层架构,主控服务器用于集中管理各备份域,备份服务器用于提供备份介质管理和数据传输,客户端包括备份客户端及各种备份代理,整体架构示意图如下:
规划一台主控服务器,三台备份服务器。
主控服务器与备份服务器的功能分离,本质上是一个管理数据库,负责备份软件层的调度管理,是备份软件层最重要的组件,其他组件依赖它去重建或修复配置,需要保证高可用性与容灾;主控服务器本身不涉及到备份介质管理与备份数据传输, IO 压力并不大。结合主控服务器的特点,可规划虚拟机部署方式,通过虚拟化集群来保障主控服务器的高可用;容灾方面,主控服务器可以通过虚拟机即时恢复技术恢复到灾备集群,也可以通过备份软件自身的 DR 备份恢复来实现,整体规划架构图如下:
三台备份服务器受主控服务器管理,分别负责各自备份域的备份存储介质、客户端、数据流。生产域、灾备域需要对接虚拟带库、物理磁带库、 NAS 存储等备份存储,承担所有客户端的备份数据流,规划各部署一台 X86 服务器,生产域与灾备域的备份服务器可互为备份。这是由于主控服务器承担了备份系统的大脑功能,备份服务器较容易灾难恢复,只需要把备份介质与客户端指向新的备份服务器即可。
邮件归档域的备份服务器主要用于 Exchange 邮箱的邮件归档,对性能要求较低,规划部署为虚拟机。
传统的备份介质主要是磁带、硬盘、光盘等,对应的设备包括物理磁带库、虚拟磁带库、 NAS 存储、光盘库等,光盘相对小众,主要用于特定的数据保护场景,暂不考虑。对于主流备份介质的规划,可以从容量、性能、重删压缩、保存方式等特性来考虑,具体可参考下表:
闪存盘 (SSD) | 虚拟带库 (Data Domian) | NAS存储 (SAS/SATA) | 磁带 (LTO7) | |
性能 | 多线程访问,比SAS/FC更好的多线程顺序数据流处理; 读操作拥有顶级的快速访问,写操作比读操作慢 | 多线程访问; 读写性能较好 | 多线程访问; 读写性能一般 | 单线程; 顺序读写性能较好,读写带宽300MB/s |
容量 | 单位容量价格高 | 单位容量价格较高 | 单位容量较廉价 | 近6TB原生容量,较廉价 |
重删压缩 | 与备份软件的重删压缩功能结合 | 自身硬件重删压缩性能好 | 与备份软件的重删压缩功能结合 | 不能开启备份软件的重删功能 |
保存使用 | 在线 便于擦写重用 | 在线 便于擦写重用 | 在线 在线保存与擦写重用 | 易于离线保存 离线保存与擦写重用 |
结合上表中不同备份介质特性的对比,我们做出了如下的备份介质规划:
规划利用备份服务器本地 SSD 盘(后续可通过 SAN 存储扩容)构建 SSD 存储池,用作数据备份系统的主缓存池,结合备份软件的重删压缩,有效减少落盘的数据量。大部分数据缓存保留 3 天,数据备份、恢复速度均能得到保障。
规划分配较多的虚拟 driver 以保障充足的备份并发流,虚拟带库池作为数据备份系统的副缓存池,本身硬件层的重删压缩性能较好。
NAS 存储池主要是两个用途:归档数据和保存期限相对短的数据。归档数据可满足一定的数据在线能力,方便随时调取(如果归档数据量较大,后续可以替换为对象存储池);数据保存周期短,对容量需求相对较小,数据擦写重用方便。
磁带的特性适宜用于需要数据离线保存、数据保存周期较长的场景。新的 LTO7 带机 driver 读写速度快、单盘磁带容量大。但磁带池是通过物理带库的带机 driver 提供并发能力,而本方案中磁带池不直接对接备份客户端,而是经缓冲池的重删压缩后的数据,相比传统直接对接客户端备份的方式,可以有效减少带机 driver 的使用。
备份网络主要包括备份 SAN 、备份 LAN 网络两种,是数据备份时间窗口的重要影响因素之一,也是备份数据稳定传输的保障。备份网络规划主要从以下几个方面考虑:
由于数据备份系统的容灾功能,需要保障备份数据流能跨数据中心同步,包括 LAN 网络、 SAN 的同步数据流。
备份带宽很大程度上会影响到备份时间窗口,特别需要关注数据流汇聚处的带宽。本方案中主要关注的是备份服务器层的带宽,采用万兆 LAN 网络,备份客户端则视情况选择备份网络。备份 SAN 主要用于备份服务器连接磁带库、存储设备以及客户端 Lanfree 备份,而备份软件可以在客户端开启数据重删压缩,重删压缩的数据流比较小,备份速度快,可以替代绝大部分 Lanfree 场景。
备份服务器一般规划在独立网段,在备份数据流较大的情况下可能会影响到正常的业务网络访问,除了注意备份窗口做规避外,还需要重点考虑数据库场景、虚拟化场景以及对网络核心交换层的影响,在条件允许的情况下,组建独立备份局域网具有一定的必要性。
备份策略的内容包括需要备份的数据对象、备份的方式方法、备份数据落地的存储介质以及数据保留周期等要素。按照不同的备份数据对象,适当错开各自的备份时间窗口,并分别制定备份策略。通用的备份策略参考如下表格:
数据对象名 | 备份数据流 | 时间窗口 | 数据量 | 数据增长量 | 备份方式 | 数据保留 |
数据库一般都需要安装单独的备份客户端,结合不同的数据库用途,可再规划分成三类策略:
这类策略需要重点保障核心级系统的 RPO 、 RTO 、备份窗口这三种指标。 RPO 对应的措施是数据库每日全备份,归档日志定时备份; RTO 对应的是需要保证数据恢复速度;备份窗口则是要提高备份速度,减少备份时间。核心类数据库通过 Lanfree 备份方式,数据恢复时间比较能保证;而开启备份软件的数据重删功能,通过 LAN 网络就可以迅速完成数据备份。综合考虑后,选择 LAN 网络和备份软件客户端重删压缩的方式,管理成本低,数据并发要求低,容错性高。备份数据流策略如下图:
这类策略可以通过备份软件重删压缩来做全备份,但一般这类数据库未开启日志归档, DBA 选择了定期导出数据文件来备份,数据保留周期短;如后期选择定期离线全备份,可以参照核心级的备份方式。其备份数据流策略如下图:
其他数据库采用备份软件重删压缩来做每日全备份,无其他定时备份归档日志策略,备份数据流策略如下图:
虚拟机备份不需要安装其他 agent ,而是基于 VMware 虚机备份代理 VSA 实现备份功能。规划选取业务重要级别高的虚拟机来做备份,每日增量备份,每周做一次合成全备份,数据保留周期比较短。虚拟机中的数据重复率也非常高,重删压缩收益较高,采用的备份数据流策略如下图:
虚拟机恢复策略相对更加多样,不同的恢复方式对应于不同的恢复场景,可以整机恢复,也可以恢复虚机中的某些文件,也可以通过备份系统直接拉起虚拟机等方式。
目前容器场景暂未部署到生产环境,但数据备份也需要提前规划。容器中的数据主要包括容器云集群组件配置信息备份、 K8S 资源对象信息、容器镜像、容器 PV 快照等等,规划采用备份脚本等方式定时将数据导出,备份到 NAS 存储池。
非结构化数据规划了三种数据备份方式:
规划一台专门用于非结构化数据备份的服务器,挂载需要备份的 NAS ,减少对业务系统的影响。文件目录级备份方式在数据恢复时,恢复的颗粒度比较细,能做文件级恢复。其特点是首次全备份时间长,但后续只需要每日增量备份,定期合成全备份即可。对于数据文件特别多的目录,文件目录扫描时间也会很长,不适宜海量文件目录场景。
文件归档主要用于合规要求,需要对长期保存的文件定期归档。文件归档适宜于与文件目录级备份配合使用。
NDMP 方式是 NAS 存储特有的数据传输协议,主要用于 NAS 文件系统级的备份,备份速度较快,但恢复颗粒度是整个 NAS 文件系统,适宜于文件数较多、数据量大的 NAS 文件系统的备份
邮箱归档设置了单独的备份域,由一台虚拟机作为备份服务器去对接邮箱系统。邮箱归档主要是需要满足邮件合规保存要求,一般要求保存 3 年以上的邮件,设置好归档策略后,只需要每日定时归档,其备份数据流策略如下:
监控规划
备份系统的监控应对接现有的 zabbix 监控系统,并重点关注如下四个方面:
1) 备份设备硬件状态:需要确认存储设备硬件状态正常
2) 备份软件进程和服务:需要确认备份软件进程和服务端口正常
3) 备份作业执行结果:需要确认定时备份作业以及其他后台作业都执行正常
4) 备份介质可用容量:需要确认备份介质的可用容量,提前做好容量预估
报表规划主要需要订制每日、每周、每月的运行情况定时报表,主要包括特定时间段内的不同备份数据对象的备份作业统计信息,包括完成作业数、失败作业数、运行中的作业数、备份存储消耗情况等等。
通过自动化手段,定期抓取备份系统的配置信息,包括主控服务器、备份服务器、备份客户端、备份策略集、存储策略、定时策略以及存储库等的详细配置信息,关注整体备份窗口长度、重要数据的备份性能等信息,适时做出相关的备份配置策略调整。
容量估算公式:后端容量 = (前端容量 x 备份周期 + 增量合计) / 去重比。由于重复数据删除技术的应用,容量估算难度加大,增量和去重比都是以经验值计算,所以需要预估相当的容量冗余。运维过程中,更需要重点及时关注各存储池上的数据备份周期、增量、去重比以及空闲容量的变化数据。
为进一步确认核心类数据库的备份方式,已完成备份恢复测试。根据测试结果, LAN 网络备份方式下, 2.5TB 的核心库的重删压缩数据流量约为 456GB ,备份时间只需要 46 分钟,恢复时间与 lanfree 方式接近。 SSD 存储池的使用,可以显著地提高备份性能,不受 SAN 网络、带机 driver 数的限制,在运维管理方面,也避免了磁带机相关故障导致的备份报错问题。
另外一方面,在服务器本地 SSD 盘构建 SSD 存储池的方案,具有一定的成本优势,但整体规模受限,可靠性并不高;但采用更复杂的存储方案,又加重了管理等成本问题,也需要做好权衡。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞6
添加新评论2 条评论
2021-04-21 21:58
2021-01-24 14:54