cpc1989
作者cpc19892021-01-07 16:06
存储工程师, 某保险公司

某保险企业数据备份系统的规划设计

字数 5359阅读 5308评论 2赞 6

1. 项目背景

数据是企业的核心资产,数据备份可以有效应对系统运行过程中的存在的数据损失风险,是业务连续性的保障。随着云计算、大数据等新技术的广泛应用,传统基于结构化数据备份的数据备份模式面临着以下三方面的挑战:

  • 非结构化数据:非结构化数据的数据量越来越大,海量数据带来了更长的备份时间窗口;
  • 数据库:适配多种类型数据库备份方案的需求,且数据量与日俱增,需要平衡备份方案的成本与收益;
  • 虚拟化和云平台:适配多种云环境下 VM 、容器的备份需求,关注备份恢复的效率。

为应对新的备份恢复场景,数据备份系统也需要与时俱进。本文从保险企业数据备份系统建设的实际需求出发,充分利用重复数据删除等数据备份技术,来优化传统备份架构,从而完成备份系统建设方案的规划设计,希望对同行有一定的借鉴和参考价值。

2. 备份系统的规划设计

2.1 需求分析

完整的备份系统一般包括备份管理系统、备份介质、备份网络以及备份策略。结合我司的实际情况,备份系统需要满足以下方面的需求:

  • 可靠性 :备份系统需要较高的可靠性,才能保障备份作业定期稳定运行;
  • 备份管理系统的容灾 :备份是数据容灾的重要手段,数据恢复又依赖于备份系统,所以备份系统本身也需要具备容灾能力,才能保证容灾方案的施行;
  • 备份数据的容灾 :备份数据应采用两份拷贝的方式,分别存放在双数据中心机房,重要数据还需满足离线保管的需求。
  • 扩展性 :备份系统需要具备良好的扩展性,满足新备份节点、备份域的需求;
  • 性能 :性能需求体现在两点,一是备份过程对源系统的性能影响较小 ,二是备份时间窗口要短,避免影响到源系统的非备份时间窗口;
  • 数据保护功能 :需能覆盖 Oracle 、 SQL Server 、 Mysql 、 PgSQL 等数据库、非结构化数据、虚拟机的备份场景以及 Exchange 邮箱归档场景;
  • 管理性 :需对接现有监控平台实现备份系统的监控告警,并定期生成运行情况报表;
  • 性价比 :在设计备份系统时,在考虑上述几项需求的同时,还需要兼顾系统的总体投入和项目收益。

2.2 备份管理系统规划

备份管理系统主要包括备份软件和备份管理服务器这两类组件。

2.2.1 备份软件

备份软件方面的工作包括:备份软件选型和备份软件架构规划。

  • 备份软件选型

选型可参考的因素包括:场景适应性、技术支持服务能力、成熟度、 Gartner 企业级备份与恢复软件的评测、运维人员技能储备等等。通过备份软件 POC 测试,以确定最终选型,测试项规划为下表:

  • 备份软件架构规划

规划生产、灾备、邮箱归档域等备份域,按照主流备份软件架构实践,采用经典的三层架构,主控服务器用于集中管理各备份域,备份服务器用于提供备份介质管理和数据传输,客户端包括备份客户端及各种备份代理,整体架构示意图如下:

2.2.2 备份服务器

规划一台主控服务器,三台备份服务器。

  • 主控服务器

主控服务器与备份服务器的功能分离,本质上是一个管理数据库,负责备份软件层的调度管理,是备份软件层最重要的组件,其他组件依赖它去重建或修复配置,需要保证高可用性与容灾;主控服务器本身不涉及到备份介质管理与备份数据传输, IO 压力并不大。结合主控服务器的特点,可规划虚拟机部署方式,通过虚拟化集群来保障主控服务器的高可用;容灾方面,主控服务器可以通过虚拟机即时恢复技术恢复到灾备集群,也可以通过备份软件自身的 DR 备份恢复来实现,整体规划架构图如下:

  • 备份服务器

三台备份服务器受主控服务器管理,分别负责各自备份域的备份存储介质、客户端、数据流。生产域、灾备域需要对接虚拟带库、物理磁带库、 NAS 存储等备份存储,承担所有客户端的备份数据流,规划各部署一台 X86 服务器,生产域与灾备域的备份服务器可互为备份。这是由于主控服务器承担了备份系统的大脑功能,备份服务器较容易灾难恢复,只需要把备份介质与客户端指向新的备份服务器即可。

邮件归档域的备份服务器主要用于 Exchange 邮箱的邮件归档,对性能要求较低,规划部署为虚拟机。

  • 数据备份流程

数据备份流程参考下图:

  • 数据恢复流程

数据恢复流程参考下图:

2.3 备份介质规划

传统的备份介质主要是磁带、硬盘、光盘等,对应的设备包括物理磁带库、虚拟磁带库、 NAS 存储、光盘库等,光盘相对小众,主要用于特定的数据保护场景,暂不考虑。对于主流备份介质的规划,可以从容量、性能、重删压缩、保存方式等特性来考虑,具体可参考下表:

闪存盘 (SSD)虚拟带库 (Data Domian)NAS存储 (SAS/SATA)磁带 (LTO7)
性能多线程访问,比SAS/FC更好的多线程顺序数据流处理; 读操作拥有顶级的快速访问,写操作比读操作慢多线程访问; 读写性能较好多线程访问; 读写性能一般单线程; 顺序读写性能较好,读写带宽300MB/s
容量单位容量价格高单位容量价格较高单位容量较廉价近6TB原生容量,较廉价
重删压缩与备份软件的重删压缩功能结合自身硬件重删压缩性能好与备份软件的重删压缩功能结合不能开启备份软件的重删功能
保存使用在线 便于擦写重用在线 便于擦写重用在线 在线保存与擦写重用易于离线保存 离线保存与擦写重用

结合上表中不同备份介质特性的对比,我们做出了如下的备份介质规划:

  • SSD存储池

规划利用备份服务器本地 SSD 盘(后续可通过 SAN 存储扩容)构建 SSD 存储池,用作数据备份系统的主缓存池,结合备份软件的重删压缩,有效减少落盘的数据量。大部分数据缓存保留 3 天,数据备份、恢复速度均能得到保障。

  • 虚拟带库池

规划分配较多的虚拟 driver 以保障充足的备份并发流,虚拟带库池作为数据备份系统的副缓存池,本身硬件层的重删压缩性能较好。

  • NAS存储池

NAS 存储池主要是两个用途:归档数据和保存期限相对短的数据。归档数据可满足一定的数据在线能力,方便随时调取(如果归档数据量较大,后续可以替换为对象存储池);数据保存周期短,对容量需求相对较小,数据擦写重用方便。

  • 磁带池

磁带的特性适宜用于需要数据离线保存、数据保存周期较长的场景。新的 LTO7 带机 driver 读写速度快、单盘磁带容量大。但磁带池是通过物理带库的带机 driver 提供并发能力,而本方案中磁带池不直接对接备份客户端,而是经缓冲池的重删压缩后的数据,相比传统直接对接客户端备份的方式,可以有效减少带机 driver 的使用。

备份介质整体使用思路如下图:

2.4 备份网络规划

备份网络主要包括备份 SAN 、备份 LAN 网络两种,是数据备份时间窗口的重要影响因素之一,也是备份数据稳定传输的保障。备份网络规划主要从以下几个方面考虑:

  • 容灾规划

由于数据备份系统的容灾功能,需要保障备份数据流能跨数据中心同步,包括 LAN 网络、 SAN 的同步数据流。

  • 备份带宽

备份带宽很大程度上会影响到备份时间窗口,特别需要关注数据流汇聚处的带宽。本方案中主要关注的是备份服务器层的带宽,采用万兆 LAN 网络,备份客户端则视情况选择备份网络。备份 SAN 主要用于备份服务器连接磁带库、存储设备以及客户端 Lanfree 备份,而备份软件可以在客户端开启数据重删压缩,重删压缩的数据流比较小,备份速度快,可以替代绝大部分 Lanfree 场景。

  • 安全隔离性

备份服务器一般规划在独立网段,在备份数据流较大的情况下可能会影响到正常的业务网络访问,除了注意备份窗口做规避外,还需要重点考虑数据库场景、虚拟化场景以及对网络核心交换层的影响,在条件允许的情况下,组建独立备份局域网具有一定的必要性。

2.5 备份系统整体架构

综上,备份系统整体架构图如下:

2.6 备份策略制定

备份策略的内容包括需要备份的数据对象、备份的方式方法、备份数据落地的存储介质以及数据保留周期等要素。按照不同的备份数据对象,适当错开各自的备份时间窗口,并分别制定备份策略。通用的备份策略参考如下表格:

数据对象名备份数据流时间窗口数据量数据增长量备份方式数据保留

2.6.1 数据库策略

数据库一般都需要安装单独的备份客户端,结合不同的数据库用途,可再规划分成三类策略:

  • 核心类数据库

这类策略需要重点保障核心级系统的 RPO 、 RTO 、备份窗口这三种指标。 RPO 对应的措施是数据库每日全备份,归档日志定时备份; RTO 对应的是需要保证数据恢复速度;备份窗口则是要提高备份速度,减少备份时间。核心类数据库通过 Lanfree 备份方式,数据恢复时间比较能保证;而开启备份软件的数据重删功能,通过 LAN 网络就可以迅速完成数据备份。综合考虑后,选择 LAN 网络和备份软件客户端重删压缩的方式,管理成本低,数据并发要求低,容错性高。备份数据流策略如下图:

  • 报表类数据库

这类策略可以通过备份软件重删压缩来做全备份,但一般这类数据库未开启日志归档, DBA 选择了定期导出数据文件来备份,数据保留周期短;如后期选择定期离线全备份,可以参照核心级的备份方式。其备份数据流策略如下图:

  • 其他数据库

其他数据库采用备份软件重删压缩来做每日全备份,无其他定时备份归档日志策略,备份数据流策略如下图:

2.6.2 虚拟化与容器策略

  • 虚拟机 VM

虚拟机备份不需要安装其他 agent ,而是基于 VMware 虚机备份代理 VSA 实现备份功能。规划选取业务重要级别高的虚拟机来做备份,每日增量备份,每周做一次合成全备份,数据保留周期比较短。虚拟机中的数据重复率也非常高,重删压缩收益较高,采用的备份数据流策略如下图:

虚拟机恢复策略相对更加多样,不同的恢复方式对应于不同的恢复场景,可以整机恢复,也可以恢复虚机中的某些文件,也可以通过备份系统直接拉起虚拟机等方式。

  • 容器

目前容器场景暂未部署到生产环境,但数据备份也需要提前规划。容器中的数据主要包括容器云集群组件配置信息备份、 K8S 资源对象信息、容器镜像、容器 PV 快照等等,规划采用备份脚本等方式定时将数据导出,备份到 NAS 存储池。

2.6.3 非结构化数据策略

非结构化数据规划了三种数据备份方式:

  • 文件目录级备份

规划一台专门用于非结构化数据备份的服务器,挂载需要备份的 NAS ,减少对业务系统的影响。文件目录级备份方式在数据恢复时,恢复的颗粒度比较细,能做文件级恢复。其特点是首次全备份时间长,但后续只需要每日增量备份,定期合成全备份即可。对于数据文件特别多的目录,文件目录扫描时间也会很长,不适宜海量文件目录场景。

  • 文件归档

文件归档主要用于合规要求,需要对长期保存的文件定期归档。文件归档适宜于与文件目录级备份配合使用。

  • NDMP方式备份

NDMP 方式是 NAS 存储特有的数据传输协议,主要用于 NAS 文件系统级的备份,备份速度较快,但恢复颗粒度是整个 NAS 文件系统,适宜于文件数较多、数据量大的 NAS 文件系统的备份

非结构化数据备份数据流策略如下:

2.6.4 邮箱归档策略

邮箱归档设置了单独的备份域,由一台虚拟机作为备份服务器去对接邮箱系统。邮箱归档主要是需要满足邮件合规保存要求,一般要求保存 3 年以上的邮件,设置好归档策略后,只需要每日定时归档,其备份数据流策略如下:

2.7 管理功能规划

  • 监控规划

    备份系统的监控应对接现有的 zabbix 监控系统,并重点关注如下四个方面:

    1) 备份设备硬件状态:需要确认存储设备硬件状态正常

    2) 备份软件进程和服务:需要确认备份软件进程和服务端口正常

    3) 备份作业执行结果:需要确认定时备份作业以及其他后台作业都执行正常

    4) 备份介质可用容量:需要确认备份介质的可用容量,提前做好容量预估

  • 报表规划

报表规划主要需要订制每日、每周、每月的运行情况定时报表,主要包括特定时间段内的不同备份数据对象的备份作业统计信息,包括完成作业数、失败作业数、运行中的作业数、备份存储消耗情况等等。

  • 配置管理

通过自动化手段,定期抓取备份系统的配置信息,包括主控服务器、备份服务器、备份客户端、备份策略集、存储策略、定时策略以及存储库等的详细配置信息,关注整体备份窗口长度、重要数据的备份性能等信息,适时做出相关的备份配置策略调整。

3. 总结和反思

  • 容量规划

容量估算公式:后端容量 = (前端容量 x 备份周期 + 增量合计) / 去重比。由于重复数据删除技术的应用,容量估算难度加大,增量和去重比都是以经验值计算,所以需要预估相当的容量冗余。运维过程中,更需要重点及时关注各存储池上的数据备份周期、增量、去重比以及空闲容量的变化数据。

  • SSD存储池

为进一步确认核心类数据库的备份方式,已完成备份恢复测试。根据测试结果, LAN 网络备份方式下, 2.5TB 的核心库的重删压缩数据流量约为 456GB ,备份时间只需要 46 分钟,恢复时间与 lanfree 方式接近。 SSD 存储池的使用,可以显著地提高备份性能,不受 SAN 网络、带机 driver 数的限制,在运维管理方面,也避免了磁带机相关故障导致的备份报错问题。
另外一方面,在服务器本地 SSD 盘构建 SSD 存储池的方案,具有一定的成本优势,但整体规模受限,可靠性并不高;但采用更复杂的存储方案,又加重了管理等成本问题,也需要做好权衡。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

6

添加新评论2 条评论

boney89boney89网络工程师, CXKJ
2021-04-21 21:58
很有用,也很详细,值得学习。
sxitsxitsxitsxitit技术咨询顾问, 18M
2021-01-24 14:54
写的很详细,值得借鉴。
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广