cpc1989
作者cpc19892021-01-07 16:06
存储工程师, 某保险公司

某保险企业数据备份系统的规划设计

字数 5584阅读 953评论 2赞 3

1. 项目背景

数据是企业的核心资产,数据备份可以有效应对系统运行过程中的存在的数据损失风险,是业务连续性的保障。随着云计算、大数据等新技术的广泛应用,传统基于结构化数据备份的数据备份模式面临着以下三方面的挑战:

  • 非结构化数据:非结构化数据的数据量越来越大,海量数据带来了更长的备份时间窗口;
  • 数据库:适配多种类型数据库备份方案的需求,且数据量与日俱增,需要平衡备份方案的成本与收益;
  • 虚拟化和云平台:适配多种云环境下 VM 、容器的备份需求,关注备份恢复的效率。

为应对新的备份恢复场景,数据备份系统也需要与时俱进。本文从保险企业数据备份系统建设的实际需求出发,充分利用重复数据删除等数据备份技术,来优化传统备份架构,从而完成备份系统建设方案的规划设计,希望对同行有一定的借鉴和参考价值。

2. 备份系统的规划设计

2.1 需求分析

完整的备份系统一般包括备份管理系统、备份介质、备份网络以及备份策略。结合我司的实际情况,备份系统需要满足以下方面的需求:

  • 可靠性 :备份系统需要较高的可靠性,才能保障备份作业定期稳定运行;
  •   备份管理系统的容灾 :备份是数据容灾的重要手段,数据恢复又依赖于备份系统,所以备份系统本身也需要具备容灾能力,才能保证容灾方案的施行;
  • 备份数据的容灾 :备份数据应采用两份拷贝的方式,分别存放在双数据中心机房,重要数据还需满足离线保管的需求。
  • 扩展性 :备份系统需要具备良好的扩展性,满足新备份节点、备份域的需求;
  • 性能 :性能需求体现在两点,一是备份过程对源系统的性能影响较小 ,二是备份时间窗口要短,避免影响到源系统的非备份时间窗口;
  • 数据保护功能 :需能覆盖 Oracle 、 SQL Server 、 Mysql 、 PgSQL 等数据库、非结构化数据、虚拟机的备份场景以及 Exchange 邮箱归档场景;
  • 管理性 :需对接现有监控平台实现备份系统的监控告警,并定期生成运行情况报表;
  • 性价比 :在设计备份系统时,在考虑上述几项需求的同时,还需要兼顾系统的总体投入和项目收益。

2.2 备份管理系统规划

备份管理系统主要包括备份软件和备份管理服务器这两类组件。

2.2.1 备份软件

备份软件方面的工作包括:备份软件选型和备份软件架构规划。

  • 备份软件选型

选型可参考的因素包括:场景适应性、技术支持服务能力、成熟度、 Gartner 企业级备份与恢复软件的评测、运维人员技能储备等等。通过备份软件 POC 测试,以确定最终选型,测试项规划为下表:

  • 备份软件架构规划

规划生产、灾备、邮箱归档域等备份域,按照主流备份软件架构实践,采用经典的三层架构,主控服务器用于集中管理各备份域,备份服务器用于提供备份介质管理和数据传输,客户端包括备份客户端及各种备份代理,整体架构示意图如下:

2.2.2 备份服务器

规划一台主控服务器,三台备份服务器。

  • 主控服务器

主控服务器与备份服务器的功能分离,本质上是一个管理数据库,负责备份软件层的调度管理,是备份软件层最重要的组件,其他组件依赖它去重建或修复配置,需要保证高可用性与容灾;主控服务器本身不涉及到备份介质管理与备份数据传输, IO 压力并不大。结合主控服务器的特点,可规划虚拟机部署方式,通过虚拟化集群来保障主控服务器的高可用;容灾方面,主控服务器可以通过虚拟机即时恢复技术恢复到灾备集群,也可以通过备份软件自身的 DR 备份恢复来实现,整体规划架构图如下:

  • 备份服务器

三台备份服务器受主控服务器管理,分别负责各自备份域的备份存储介质、客户端、数据流。生产域、灾备域需要对接虚拟带库、物理磁带库、 NAS 存储等备份存储,承担所有客户端的备份数据流,规划各部署一台 X86 服务器,生产域与灾备域的备份服务器可互为备份。这是由于主控服务器承担了备份系统的大脑功能,备份服务器较容易灾难恢复,只需要把备份介质与客户端指向新的备份服务器即可。

邮件归档域的备份服务器主要用于 Exchange 邮箱的邮件归档,对性能要求较低,规划部署为虚拟机。

  • 数据备份流程

数据备份流程参考下图:

  • 数据恢复流程

数据恢复流程参考下图:

2.3 备份介质规划

传统的备份介质主要是磁带、硬盘、光盘等,对应的设备包括物理磁带库、虚拟磁带库、 NAS 存储、光盘库等,光盘相对小众,主要用于特定的数据保护场景,暂不考虑。对于主流备份介质的规划,可以从容量、性能、重删压缩、保存方式等特性来考虑,具体可参考下表:

闪存盘 (SSD) 虚拟带库 (Data Domian) NAS存储 (SAS/SATA) 磁带 (LTO7)
性能 多线程访问,比SAS/FC更好的多线程顺序数据流处理; 读操作拥有顶级的快速访问,写操作比读操作慢 多线程访问; 读写性能较好 多线程访问; 读写性能一般 单线程; 顺序读写性能较好,读写带宽300MB/s
容量 单位容量价格高 单位容量价格较高 单位容量较廉价 近6TB原生容量,较廉价
重删压缩 与备份软件的重删压缩功能结合 自身硬件重删压缩性能好 与备份软件的重删压缩功能结合 不能开启备份软件的重删功能
保存使用 在线 便于擦写重用 在线 便于擦写重用 在线 在线保存与擦写重用 易于离线保存 离线保存与擦写重用

结合上表中不同备份介质特性的对比,我们做出了如下的备份介质规划:

  • SSD存储池

规划利用备份服务器本地 SSD 盘(后续可通过 SAN 存储扩容)构建 SSD 存储池,用作数据备份系统的主缓存池,结合备份软件的重删压缩,有效减少落盘的数据量。大部分数据缓存保留 3 天,数据备份、恢复速度均能得到保障。

  • 虚拟带库池

规划分配较多的虚拟 driver 以保障充足的备份并发流,虚拟带库池作为数据备份系统的副缓存池,本身硬件层的重删压缩性能较好。

  • NAS存储池

NAS 存储池主要是两个用途:归档数据和保存期限相对短的数据。归档数据可满足一定的数据在线能力,方便随时调取(如果归档数据量较大,后续可以替换为对象存储池);数据保存周期短,对容量需求相对较小,数据擦写重用方便。

  • 磁带池

磁带的特性适宜用于需要数据离线保存、数据保存周期较长的场景。新的 LTO7 带机 driver 读写速度快、单盘磁带容量大。但磁带池是通过物理带库的带机 driver 提供并发能力,而本方案中磁带池不直接对接备份客户端,而是经缓冲池的重删压缩后的数据,相比传统直接对接客户端备份的方式,可以有效减少带机 driver 的使用。

备份介质整体使用思路如下图:

2.4 备份网络规划

备份网络主要包括备份 SAN 、备份 LAN 网络两种,是数据备份时间窗口的重要影响因素之一,也是备份数据稳定传输的保障。备份网络规划主要从以下几个方面考虑:

  • 容灾规划

由于数据备份系统的容灾功能,需要保障备份数据流能跨数据中心同步,包括 LAN 网络、 SAN 的同步数据流。

  • 备份带宽

备份带宽很大程度上会影响到备份时间窗口,特别需要关注数据流汇聚处的带宽。本方案中主要关注的是备份服务器层的带宽,采用万兆 LAN 网络,备份客户端则视情况选择备份网络。备份 SAN 主要用于备份服务器连接磁带库、存储设备以及客户端 Lanfree 备份,而备份软件可以在客户端开启数据重删压缩,重删压缩的数据流比较小,备份速度快,可以替代绝大部分 Lanfree 场景。

  • 安全隔离性

备份服务器一般规划在独立网段,在备份数据流较大的情况下可能会影响到正常的业务网络访问,除了注意备份窗口做规避外,还需要重点考虑数据库场景、虚拟化场景以及对网络核心交换层的影响,在条件允许的情况下,组建独立备份局域网具有一定的必要性。

2.5 备份系统整体架构

综上,备份系统整体架构图如下:

2.6 备份策略制定

备份策略的内容包括需要备份的数据对象、备份的方式方法、备份数据落地的存储介质以及数据保留周期等要素。按照不同的备份数据对象,适当错开各自的备份时间窗口,并分别制定备份策略。通用的备份策略参考如下表格:

数据对象名 备份数据流 时间窗口 数据量 数据增长量 备份方式 数据保留

2.6.1 数据库策略

数据库一般都需要安装单独的备份客户端,结合不同的数据库用途,可再规划分成三类策略:

  • 核心类数据库

这类策略需要重点保障核心级系统的 RPO 、 RTO 、备份窗口这三种指标。 RPO 对应的措施是数据库每日全备份,归档日志定时备份; RTO 对应的是需要保证数据恢复速度;备份窗口则是要提高备份速度,减少备份时间。核心类数据库通过 Lanfree 备份方式,数据恢复时间比较能保证;而开启备份软件的数据重删功能,通过 LAN 网络就可以迅速完成数据备份。综合考虑后,选择 LAN 网络和备份软件客户端重删压缩的方式,管理成本低,数据并发要求低,容错性高。备份数据流策略如下图:

  • 报表类数据库

这类策略可以通过备份软件重删压缩来做全备份,但一般这类数据库未开启日志归档, DBA 选择了定期导出数据文件来备份,数据保留周期短;如后期选择定期离线全备份,可以参照核心级的备份方式。其备份数据流策略如下图:

  • 其他数据库

其他数据库采用备份软件重删压缩来做每日全备份,无其他定时备份归档日志策略,备份数据流策略如下图:

2.6.2 虚拟化与容器策略

  • 虚拟机 VM

虚拟机备份不需要安装其他 agent ,而是基于 VMware 虚机备份代理 VSA 实现备份功能。规划选取业务重要级别高的虚拟机来做备份,每日增量备份,每周做一次合成全备份,数据保留周期比较短。虚拟机中的数据重复率也非常高,重删压缩收益较高,采用的备份数据流策略如下图:

虚拟机恢复策略相对更加多样,不同的恢复方式对应于不同的恢复场景,可以整机恢复,也可以恢复虚机中的某些文件,也可以通过备份系统直接拉起虚拟机等方式。

  • 容器

目前容器场景暂未部署到生产环境,但数据备份也需要提前规划。容器中的数据主要包括容器云集群组件配置信息备份、 K8S 资源对象信息、容器镜像、容器 PV 快照等等,规划采用备份脚本等方式定时将数据导出,备份到 NAS 存储池。

2.6.3 非结构化数据策略

非结构化数据规划了三种数据备份方式:

  • 文件目录级备份

规划一台专门用于非结构化数据备份的服务器,挂载需要备份的 NAS ,减少对业务系统的影响。文件目录级备份方式在数据恢复时,恢复的颗粒度比较细,能做文件级恢复。其特点是首次全备份时间长,但后续只需要每日增量备份,定期合成全备份即可。对于数据文件特别多的目录,文件目录扫描时间也会很长,不适宜海量文件目录场景。

  • 文件归档

文件归档主要用于合规要求,需要对长期保存的文件定期归档。文件归档适宜于与文件目录级备份配合使用。

  • NDMP方式备份

NDMP 方式是 NAS 存储特有的数据传输协议,主要用于 NAS 文件系统级的备份,备份速度较快,但恢复颗粒度是整个 NAS 文件系统,适宜于文件数较多、数据量大的 NAS 文件系统的备份

非结构化数据备份数据流策略如下:

2.6.4 邮箱归档策略

邮箱归档设置了单独的备份域,由一台虚拟机作为备份服务器去对接邮箱系统。邮箱归档主要是需要满足邮件合规保存要求,一般要求保存 3 年以上的邮件,设置好归档策略后,只需要每日定时归档,其备份数据流策略如下:

2.7 管理功能规划

  • 监控规划

    备份系统的监控应对接现有的 zabbix 监控系统,并重点关注如下四个方面:

 1) 备份设备硬件状态:需要确认存储设备硬件状态正常

 2) 备份软件进程和服务:需要确认备份软件进程和服务端口正常

 3) 备份作业执行结果:需要确认定时备份作业以及其他后台作业都执行正常

 4) 备份介质可用容量:需要确认备份介质的可用容量,提前做好容量预估

  • 报表规划

报表规划主要需要订制每日、每周、每月的运行情况定时报表,主要包括特定时间段内的不同备份数据对象的备份作业统计信息,包括完成作业数、失败作业数、运行中的作业数、备份存储消耗情况等等。

  • 配置管理

通过自动化手段,定期抓取备份系统的配置信息,包括主控服务器、备份服务器、备份客户端、备份策略集、存储策略、定时策略以及存储库等的详细配置信息,关注整体备份窗口长度、重要数据的备份性能等信息,适时做出相关的备份配置策略调整。

3. 总结和反思

  • 容量规划

容量估算公式:后端容量 = (前端容量 x 备份周期 + 增量合计) / 去重比。由于重复数据删除技术的应用,容量估算难度加大,增量和去重比都是以经验值计算,所以需要预估相当的容量冗余。运维过程中,更需要重点及时关注各存储池上的数据备份周期、增量、去重比以及空闲容量的变化数据。

  • SSD存储池

为进一步确认核心类数据库的备份方式,已完成备份恢复测试。根据测试结果, LAN 网络备份方式下, 2.5TB 的核心库的重删压缩数据流量约为 456GB ,备份时间只需要 46 分钟,恢复时间与 lanfree 方式接近。 SSD 存储池的使用,可以显著地提高备份性能,不受 SAN 网络、带机 driver 数的限制,在运维管理方面,也避免了磁带机相关故障导致的备份报错问题。
另外一方面,在服务器本地 SSD 盘构建 SSD 存储池的方案,具有一定的成本优势,但整体规模受限,可靠性并不高;但采用更复杂的存储方案,又加重了管理等成本问题,也需要做好权衡。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论2 条评论

#boney89网络工程师, CXKJ
2021-04-21 21:58
很有用,也很详细,值得学习。
#sxitsxitit技术咨询顾问, 18M
2021-01-24 14:54
写的很详细,值得借鉴。
Ctrl+Enter 发表

虚拟机备份选型优先顺序调查

发表您的选型观点,参与即得50金币。