Jerry Miku
作者Jerry Miku2017-01-09 15:13
其它, The Global 500

关于备份系统维护的经验分享

字数 3058阅读 2328评论 1赞 7

  上期我们聊了会儿备份系统搭建时备份存储的选择考量(选择磁带库过程中,关于功能、性能、磁带库互备、未来拓展等方面的心得体会分享),这次借此机会给大家分享一些自己在维护备份系统这方面经验心得,欢迎大家补充。

  备份系统搭建完成,运行一段时间后没问题,接下来就需要汇总、编写各种报告了。对备份系统整体架构、体系以及策略等变更,都是维护一个备份系统的重中之重。尤其是在备份系统日益庞大之后,某天客户问一个系统的数据是如何备份的,生产进行哪个调整影响备份嘛?如果没有良好的维护记录,很可能面对这一个问题就会手忙脚乱。

  我们从这次交流活动的引言开始,逐一分享一下个人的维护经验。

  本期我们聊一聊TSM备份和归档那些事,那些我们在工作和学习中的各种TSM相关问题,比如:

1. 我只是想备份我的数据,不关心什么策略域、副本组?

  对于客户而言,客户不大关注备份系统的架构实质,更多的希望你能简简单单告诉他数据怎么备份的、保留多少份等等。但对于维护人员而言,可能不大关注客户业务哪个系统如何如何,更多的可能是某个客户端怎么备份而已。

  针对这个问题,就是在考验维护人员的整合能力的时候。关于这一点,个人的处理方法是按照客户的系统分类习惯制作备份信息策略表。举个例子:

  EXCEL表第一列---系统类别,比如:BOSS系统、BI系统以及OA系统等;

  EXCEL表第二列开始将大系统细分,比如BOSS系统中计费系统;

  EXCEL表第三列将系统内的备份细分,数据库备份、中间件备份、虚拟机备份、文件备份等;

  EXCEL表第四列开始精确到客户端,接下来关于客户端的一些信息,主机名、IP、备份方式(LAN or LAN-FREE)、备份脚本路径、备份启动时间、备份频率(每周二全备份)、备份池名称、备份目标介质等等。

  如此制表,无论是给客户审批还是个人维护,不仅直观、简洁、高效,而且维护一段时间之后,也很有助于对客户业务系统的深入理解。

2. 讲了这么多概念,能不能告诉我,我想要的数据到底备份到了哪盘磁带上?

  如果有了1中的备份策略表,不管是客户给了你一个IP,还是一个主机或系统名字,作为运维人员的你来回复客户这个问题肯定很简单:哪个系统、哪个数据库、哪个备份如何进行、数据将备份到哪个目标介质上的哪个备份池,一目了然。如果还需要细化备份具体使用的磁带范围,在控制台查询后也可以轻松应对。

3. 使用TSM备份oracle,怎么设置通道会比较好?

  不管是哪一款备份软件,对备份数据备份流程的控制尤其重要,特别是采用消重技术的备份,对备份数据的控制效用将直接影响消重性能。

  消重技术以变长、定长两种为例,顾名思义变长是可以根据数据长度动态调整切片长度(如EMC DataDomain),定长仅仅是以固定长度对数据进行切片。

  切片完成后,片(piece)的命中率直接决定消重性能。piece的命中率越高,消重越明显。因此如何控制备份片(backup piece)单一度且相似度成为重点。

  我们知道Oracle的Rman脚本里,有一个fileperset参数来控制每一个backup piece里会包含多少个data file。设想一下,如果fileperset越高,那每个backup piece就会包含更多的data file,backup piece的杂糅度就会越高(data file会被混乱随机的组成一个backup piece,并不是每次都按照同一个顺序拟成),那么消重切片后piece的重复率必然低。

  综合分析,一个合理的fileperset值将有效提升消重效率,fileperset越小越好,理论为1最好(如果没有多路复用的情况,一个流会话会占用一个备份设备)。

  接下来关注备份通道数,Oracle的备份效率与数据结构类型、数据大小以及备份配置等息息相关。

  如何合理规划备份通道数?关于此问题,我们需要了解一个概念——多路复用(multiplexing)。这个功能能够让多个oracle channel的备份流写入一个磁带机,如rman里分配了四个通道,但备份只有一个磁带机在跑。对于单个磁带机来讲,连续、大量的数据流具有更高的写入效率,如果单个backup piece数据量偏小就需要适当提高multiplexing的复用效率:允许x个会话同时写入该设备(此操作提高数据杂糅度会降低后端消重效率)。

  对于Oracle而言,如果数据库性能允许,更多的channel会带来更高的数据读取效率,备份速度越快。然而考虑到备份对业务的影响以及并发性能的限制,最佳的通道数需要多次调整尝试。

  除此之外若是oracle的消重备份,如果设置rman读取datafile时的读取块大小以及备份软件写数据的块大小以及设备消重的最小长度呈倍数关系,在消重效率和备份速率上都会有一定提升。

4. 使用TSM备份我的oracle和DB2,过期策略怎么设置,怎么感觉数据越来越多,一直删不掉?

  关于备份的过期策略,举个简单的例子:

  就像书籍的目录和章节内容:备份软件的索引保留策略相当于目录,备份数据相当于章节内容。全备份和增量备份的依赖关系,相当于大章节下的小章节。如此理解之后,备份的依赖关系以及周期关系就很明晰了,接下来就是根据实际情况来调整策略了。

  在备份的一级存储介质上存储长周期的备份,会降低该存储的整体利用率。如果条件允许,可以在一级存储上存储一两个周期的备份用于应急恢复,短期备份数据通过克隆到二级存储上作长期保留。如果数据量大,可以考虑使用消重设备备份。

5. Lanfree是什么,我想使用磁盘存储,可以使用lanfree吗?

  Lan Free,顾名思义,即释放了LAN的压力。数据流直接从备份节点经过SAN switch备份到介质,而不经过Lan网络。但是数据仍然会通过备份节点的磁盘--内存——SAN switch这步,因此仍然会消耗备份节点的资源。Server Free,与Lan Free的区别是:数据不落盘和内存,直接由存储经过SAN switch向备份设备写入。

  若是使用NAS类磁盘存储,可以通过NDMP进行LAN FREE备份的。还有一些特殊的磁盘类设备可以实现Lan Free,比如EMC Datadomain可以实现ddboost over fc。

6. 我想使用TSM备份我的操作系统,应该如何设计,使用哪些模块?

  忘记了,这个还请大能补充

7. 我想对我的重要应用备份离线长期保持,磁带出库方面如何设计,有什么值得注意的?

  磁带出入库方面的设计,主要是详细记录,否则恢复数据时茫茫的磁带海去找磁带,那就刺激了。

  在出库方面,一定要记录几点必要的信息:哪些磁带,什么时间出库,保留至多久,是哪个备份的磁带,存放地在哪儿(最好精确到磁盘柜编号)。建议对出库磁带在备份系统的标识均作好记录,比如是哪个系统哪个客户端什么时间的备份,标签是什么。对于人员混杂的存处区,切记在磁带保存箱外面标注“重要数据,请勿使用”等类似标识。

  在入库方面,需要注意的几点信息:入库的磁带是否已经是无效数据,从哪儿获得的磁带,放入哪个磁带库,什么时间入库等等。同时还需要在(出库的)磁带流向表里更新磁带使用信息。

  磁带出入库的管理,强烈建议固定人员操作,而且磁带库的钥匙每次使用做好记录,谁使用谁更新磁带出入库表。

  磁带库的保存环境,温度、湿度、磁场等,防磁化标准高的话,可以考虑防磁柜。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

7

添加新评论1 条评论

wuwenpinwuwenpin软件开发工程师, 南京
2018-03-11 20:14
学习了
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广