zp_ccc
作者zp_ccc2016-11-15 15:37
高级技术主管, 国内某金融科技公司

金融数据中心 IT系统日常数据备份运维规范设计

字数 3878阅读 6297评论 4赞 13

1综述

通过本文的举例介绍,可以为金融行业数据中心的IT运维操作提供借鉴,可以规范数据中心的IT系统的数据备份管理日常运维操作行为,使服务器运维管理更加系统化、标准化,提高金融行业数据中心的运维服务质量和整体运维服务水平。同时,通过标准化的运维规范实施可以降低系统风险,减少因人为因素带来的误操作概率。

本规范的目的是:

  • 明确了服务器备份目的、内容
  • 制定出服务器备份解决方案
  • 根据服务器分类标准,规范化服务器系统的备份策略
  • 规范化服务器系统备份介质的编码
  • 对服务器系统恢复的策略、方案进行规范化

1.1 文档用途

本文档作为金融行业数据中心IT系统数据备份日常运维操作举例,提供了数据中心中服务器系统备份目的、范围、策略制定、介质管理、备份记录维护等信息,结合收集众多同行的多年维护经验,规范化服务器日常运维的备份、恢复操作,保障服务器系统的安全可靠运行。

1.2 适用范围

本文档适用金融行业数据中心中众多AIX、HP-UX、Windows等服务器日常运维备份、恢复。适用对象为金融行业数据中心运维人员。

1.3 相关术语

服务器 ( Server )

从广义上讲,服务器是指网络中能对其它机器提供某些服务的计算机系统 。从狭义上讲,服务器是专指某些高性能计算机,能通过网络,对外提供服务。相对于普通PC来说,稳定性、安全性、性能等方面都要求更高,因此在CPU、芯片组、内存、磁盘系统、网络等硬件和普通PC有所不同。

UNIX服务器 ( Unix Server)

指运行着UNIX操作系统软件平台的服务器系统,业界主要的UNIX操作系统有Aix、HP-UX、Solaris、Linux、True64、Freebsd、ScoUnix等,本文主要介绍金融行业应用比较多的是AIX,HP-UX系统平台。

备份、恢复

在系统稳定运行的时候,对系统里的所有文件或关键文件数据拷贝成一个文件,存储于其它的存储空间(磁带、硬盘等)进行保存,当系统发生问题时,可以通过这个拷贝文件将系统恢复到系统正常运行时候的状态,在这个过程中拷贝成文件的操作称为备份,发生故障时将这个文件还原到系统中称为恢复

存储介质

备份所存放数据的物理载体,本文档通指磁带介质,存储介质也可以是硬盘、光盘、磁盘阵列等.

介质生命周期

备份介质可以正常被使用的时间或次数定义,对于普通磁带及的磁带介质使用寿命通常为3 年,对于超过3年使用期限的磁带建议进行介质替换

备份保存周期

备份保存周期指备份完成后,存储在备份介质上的数据需保留的时间长度,在此期间,该备份介质上的数据不可删除,等备份保存周期过后,可进行备份介质的重复性使用。

2 服务器备份

为了实现服务器的自动化监控管理,根据服务器平台及版本、监控内容及监控方式需求,以便制定出符合实际情况的监控解决方案。具体需求如下:

2.1 备份目的

在服务器业务系统的日常运行过程中,可能会存在人为误操作或者一些无法预见性的事件发生,最终导致数据丢失。如何最大程度的减小数据丢失,在最短的时间内恢复数据,减轻对业务系统影响,因此制定出一套合理、完善的备份、恢复解决方案显得尤为重要。

通过定期对服务器系统执行合理、完善的备份策略,可以确保在必要时最大限度的减少业务停机时间以及数据丢失所带来的影响,提高系统可用性以及数据完整性。前提条件是备份都是经过验证的,可恢复的。

2.2 备份内容

备份内容主要是针对服务器运行的操作系统和一些系统关键配置信息进行备份,数据库及应用数据备份内容不在本规范的定义范围之内。

具体备份内容定义如下:

2.3 备份方法

由于磁带是目前性价比比较高、体积小、管理方便的存储介质,建议把备份信息存储在磁带介质上进行保存,提前条件是所备份的服务器需连接有本地磁带机设备供备份管理员使用。以下备份方法是根据运维多年来最佳业界实践经验总结出,具体如下:

2.4 备份策略

备份策略是根据服务器分类级别定义,针对服务器系统备份内容制定出合理的备份频率、备份数量、保存周期定义,满足业务对服务器系统的安全性和可恢复性要求。

备份策略说明:

  • 备份分为两大类,周期性备份和临时变更备份。
  • 此备份策略针对系统无变更时服务器系统日常运维所需执行的周期性备份操作。
  • 对于服务器系统相关配置的临时变更备份,在评估风险后需进行相关系统配置备份来确保安全的,可在变更前对系统相关配置进行备份以确保变更的安全性和可恢复性,变更结束并验证成功后需重新对系统的相关配置进行备份,备份数为两份,备份保留周期由变更发起人来确定。
  • 备份后的介质在保存周期内不能继续使用,只有保存周期过后才可以被重新循环使用。

具体服务器系统相关备份策略定义如下:

2.5 介质编码规则

在完成备份操作后,需对备份介质进行介质编码,把编码信息通过专用贴纸粘贴在磁带介质的表面,以方便服务器备份管理员进行介质检索。备份介质编码信息建议采用组合服务器主机名、备份类型、备份序号三个字段信息,每个字段通过下划线进行连接,最终编码格式hostname_type_n。字段详细说明如下:

说明:

  • 此编码规则适用于使用磁带机设备来进行备份的介质编码。对于磁带库设备,由于会为介质分配条形码识别信息,介质编码可以直接用条形码信息作为介质编码,对于没有分配条形码的磁带介质,可以采用此介质编码规则。
  • 考虑到备份介质是重复循环使用,不建议在编码信息中包含备份时间信息,减少服务器备份管理员重复进行编码信息粘贴,备份介质的备份时间信息可以从备份记录中获取。

2.6 介质保存

由于磁带介质本身是一种靠磁来保存数据信息的载体,因此,它对保存环境要求极为严格,需要对防尘、防震、防热、防磁、防潮、防霉进行严格控制,否则,会影响介质的正常使用,可能会对被保存在介质上的数据实效,最终导致无法恢复。

结合运维对介质管理的最佳实践经验,推荐采用专业的介质保存设备磁带柜来作为介质存储设备,同时,介质保存需确保安全,由专人、专员保管,存放地点固定。

2.7 备份记录

在完成一次备份操作后,服务器备份管理员需要将此次备份的信息登记维护,包含服务器主机名、备份时间、备份大小、消耗时间、介质编码、存放地点,确保备份记录信息的完整性,同时,通过备份记录表可以很方便找到恢复所需的介质设备编码及存放地点。 备份记录表模版如下:

2.8 介质生命周期

由于备份介质的生命周期受到备份文件大小、文件数量、备份次数以及备份环境等因素影响,业界对磁带介质的生命周期无具体统一标准,根据运维多年来实施外包服务管理的实践经验,对于按照本规范定义的服务器系统备份内容和备份策略执行的备份介质,建议生命周期为3年(从购买日期起开始计算),对超过3年以上的磁带介质不建议使用,即使是以前购买的未使用磁带。客户应购买新生产的磁带来替换过期磁带,确保备份数据的安全性和可恢复性。

2.9 清洗策略

结合本规范定义的服务器系统备份内容、数据大小及备份频率信息计算,服务器系统所连接的磁带机设备基本上一个月使用一次,考虑到备份数据内容的重要性,因此,建议对备份服务器的磁带机每两月清洗一次,清洗操作可以安排在备份操作前执行即可。

3 服务器恢复

服务器恢复是指利用备份介质把所备份的数据内容全部或部分还原到服务器系统中。由于在服务器日常运行过程中,无法直接在所备份的服务器进行真实环境恢复操作,但为了验证备份介质的可用性以及备份方案完整性、可靠性以及应对未来系统突发事件发生,需要通过模拟环境来对备份介质以及备份方案进行检验,来确保备份的可恢复性,这种操作称为备份恢复验证。通过备份恢复验证,我们还可以总结出恢复经验以及具体恢复步骤,提高应对突发事件的解决速度。

3.1 备份验证

备份验证分为介质验证测试或灾难恢复测试两种。备份验证原则是以服务器系统为单位在最近几次备份内抽样随机进行,不必每个备份都进行,但要保证在一定期限内每台服务器系统的每类备份至少有一次备份被恢复验证过。

  • 介质验证测试是指可以从备份介质中成功提取出个别可用文件,并且可用随机或顺序检索该备份介质,验证该介质为可用即可。
  • 灾难恢复测试是指模拟真实环境将备份介质的全部内容恢复出来进行测试验证,前提条件是需要有和所备份服务器相同平台的测试服务器和兼容的磁带机配合。需要先定义出预测试恢复的时间点,找出与该时间点最接近的备份介质,然后,在该服务器上实行恢复测试。恢复完毕后需验证恢复系统是否与备份内容定义相同,数据是否完整、系统是否可用以及恢复的时间点是否是该备份介质记录的时间点。灾难恢复测试也包含介质验证测试功能。

具体备份验证策略如下:

3.2 恢复方法

根据服务器系统备份内容的制定的备份方法 ,提供以下恢复方法来进行备份恢复,具体如下:

4 关键角色、职责

角色和职责定义了本规范中涉及到的关键人员的角色、职责以及所需技能的定义描述,确保每个角色能够正确地、合理的执行与之相关操作。

5 关键衡量指标

为了较好地控制规范的遵循质量,必须为规范设置衡量指标,通过对指标的分析,可以有效地对规范的执行情况进行监控和改进。

6 自动化管理建议

服务器的自动化管理指的是利用一些业界成熟的管理工具实现对服务器安装、配置、维护以及安全漏洞检查等操作的自动化管理,它的优点主要是:

  • 操作自动化 — 减少人为错误,发现潜在问题,防患于未然
  • 扩充服务器能力 — 提供快速的服务器裸机安装
  • 安全性 — 确保所有的服务器补丁更新
  • 合规性 — 快速的查看每台服务器的合规状态
  • 可见性 — 动态查看服务器硬件/软件资产状态以及性能状态
  • 高效性 — 众多作业并发运行

结合本文档规范的具体内容,建议可以对以下内容实现自动化管理:

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

13

添加新评论4 条评论

yxuyxu总经理/总裁, 上海汇和信息技术有限公司
2018-07-10 09:55
学习了,很好
宋代超人宋代超人系统运维工程师, 东航期货
2018-07-08 21:21
学习了,一份不错的归纳
wuwenpinwuwenpin软件开发工程师, 南京
2018-07-08 21:13
学习了,谢谢
suilimingsuiliming系统工程师, sugon
2018-07-08 13:17
学习了,谢谢
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广