powertiandi
作者powertiandi联盟成员·2016-12-05 16:07
系统架构师·李宁(中国)体育用品有限公司

磁带库在企业使用中运维杂谈

字数 3007阅读 2841评论 0赞 0

磁带库在企业中主要是结合备份软件来使用,当然其他用途也有,本片小文主要是针对磁带库结合备份软件的应用场景进行描述。

由于备份的场景一般处于企业业务的最低端,很少被人关注和重视。随着近些年来人们对数据重视的程度越来越高,企业也开始增加对备份环境的建设和投入,那么磁带库由于容量大,价格低的高性价比的特点被企业看中,其中另一个重要的原因是备份数据需要出库异地存放,所以现在很多企业大多都有一套或更多套磁带库设备。那么随着越来越多磁带库设备引入到我们企业当中,那么如何使用和维护成为了运维工程师需要面临的一个问题。

下面我将近些年来工作当中遇到和使用过的磁带库使用一点心得记录下来,希望可以给广大运维同行提供一点点经验。

由于经常使用备份软件TSM原因前前后后接触了不少磁带库设备,有物理带库也有虚拟带库,那么如何更好的使用这些磁带库设备是我经常需要考虑的东西。所以在此对以前工作当中遇到的问题和借鉴其他人的一些经验在这里做一下分享。

一.选型:

谈到选型的问题,运维工作者有时很无奈,为什么这么说呢。很多企业在设备选型的问题上基本上都不会考虑或者很少考虑运维工作者的意见,大多都是设备已经采购了或者已经到企业了,运维工作者才会知道有新的任务来了,又是一个再学习的过程啊,所谓人生苦短,精力有限。希望广大的运维工作者能够在企业角色和企业选型当中说上话,起到左右,让自己显得重要起来。

至于磁带库选型方面有以下几点可以参考:
1.多调研,多比较,比较深入的了解每款带库的优点和不足
2.在综合品牌比较后,其他方面相差不多情况下,尽量选择与原有产品线统一品牌的产品,减少设备兼容性和再学习的带来的一系列问题
3.尽量选择和备份软件兼容性比较好的磁带库设备
4.结合备份和后期扩展需求,选择扩容弹性比较好的设备
5.尽量使用相对新的产品驱动器类型。

二.硬件问题:

磁带库产品主要分为物理带库和虚拟带库(vtl软件+存储的封装)。

虚拟磁带库:
虚拟带库的硬件问题相比于物理带库还是比较少的,或者说虚拟带库的硬件问题大多都表现在磁盘,连接线和HBA卡方面,这些问题大都情况下都有冗余,所以及时更换大都都能不太影响带库的整体使用。

物理磁带库:
物理磁带库由于基本上除了几个电路板和芯片外就是一堆铁堆叠而成,所以只要是硬件问题,基本上都需要及时处理,经常遇到的问题有:
1.机械臂故障
定位了是机械臂的问题,除非自己有很强的动手和知识储备外,我们只能选择在MA供应商换。

2.驱动器故障
驱动器问题主要表现在:驱动器清洗和读写错误。
驱动器清洗:购买几盘清洗带备用,在磁带库里定义清洗槽位,自动模式清洗或者选择手动模式清洗驱动器。
读写错误:一两次的读写错误,我们基本上可以忽略,如果出现持续问题基本上需要考虑更换。驱动器坏掉在带库里都会有明显的标识,每个厂商错误码都不一样。

3.磁带问题
读写问题:一两次的读写错误,我们基本上可以忽略,如果出现持续问题基本上需要考虑更换。
卡带问题:有时候会出现驱动器卡带的问题,这大多是驱动器问题,有时候也会上磁带本身问题,这时候我们大多时候需要手工把磁带搞出来,有时候还得把驱动器拆开,比较折腾。

4.微码问题
微码问题可以说软件问题也可以说是硬件问题,毕竟和硬件密切相关。
升级微码:

  • 现在带库大多都支持web远程管理,通过web进行微码升级。操作过程一般毕竟稳定,时间窗口比较长。
  • 很多时候我们选择直接使用一盘空白磁带插入驱动器里直接升级,快捷高效。

5.故障诊断

  • 登录web管理客户端或带库前端面板,查询详细的报错日志
  • 虚拟带库有时可以运维登录到VTL的操作系统进行相关的诊断
  • 使用原厂诊断软件,备份软件自带tools和第三方tools进行相关诊断,测试是否正常工作

有关硬件方面的问题磁带库厂商基本上都有故障诊断手册,遇到错误代码最接近的方式就是查询具体款的磁带库手册进行定位和后续就是经验方面的积累。收录企业每款带库的管理手册和故障定位手册应该是运维工程师要做好的一件事。

三.规划配置:

磁带库要想利用好要结合一下企业的备份需求和备份场景,规划配置方面注意在以下几个方面做一些考虑:

  1. 逻辑带库划分

中高端磁带库到多都支持带库分区的功能,所以要综合靠率一下企业备份场景和备份需求,是否进行带库逻辑分区的考虑,划分几个逻辑带库合理虚拟磁带库基本上都支持多个逻辑带库的划分,可以对驱动器数量和磁带类型的选择方面逐步扩容,做好整体空间使用监控

  1. 清洗槽位的定义
    如果没有定义清洗槽位后期驱动器清洗的时就会显得很不方便,虽然备份软件里也支持定义清洗槽位。但大多还是在物理带库里定义完成
  2. 控制路径
    某些带库需要在定义时注意控制路径的选择分配,后端时候驱动器映射给了备份主机,主机端却扫描不到机械臂,有点时候就是因为控制路径分配的不对造成的。

四.结合TSM使用:

在这里我只是针对TSM备份软件配合磁带库在企业日常备份应用场景的使用所要注意的参考点:
分类:
1.一个驱动器和两个或多个驱动器的情况
1).一个驱动器的环境TSM需要借助磁盘空间建立一个回收池,完成磁带回收工作
2).两个和多个驱动器的划分需要考虑业务备份的窗口的重合,避免驱动器繁忙导致备份失败

2.物理带库和虚拟带库
1)物理带库的磁带信息和TSM数据库磁带信息不同,大多是因为不合理的磁带出库删除造成的,需要做tsm和磁带库信息的盘点
2)虚拟带库磁盘空间回收问题,尤其是DataDomain系列的虚拟带库配合TSM需要参考bpg_data_domain_ibm_tsm.pdf最佳实践,参数和带库类型严格设置,否则可能出现工作不正常的现象。

五.压缩和重删:

我们使用磁带库好多时候是用到压缩和重删的功能,这样可以节约很大一部分空间。但是我们首先要明确一下物理带库只有压缩的功能没有重删的功能,
虚拟磁带库默认只有压缩功能没有重删功能,重删很多时候需要购买license。在以往压缩和重删的实践过程当中,主要遇到以下几个方面的问题:
1)压缩
压缩的功能,这个是带库默认自带且工作比较好的一个功能。
2)重删
每个厂商的重复删除实现都是不一样的,效果也是不一样的。我们需要讨论一下什么类型的备份需要重删,什么类型的重删效果不太好。

重复删除空间使用:
很多厂商宣传重删如何如何好,记住,不是所有类型的重删效果都好,而是在某一方面效果不错,其他的只能说一般般,这里不点名了。这样如果没有前期和好测试的话会出现你计划备份预留的空间完全不能满足现实备份空间需求,经常会出现空间紧张的问题,还很不容易定位问题,厂商只能说效果还要看实际的来,重删的机制说的很好,但是到企业感觉就没那么好了。

重复删除的场景:
效果好:常规文件备份
效果一般:数据库备份,图片备份

3)tsm 重删
TSM新版本已经支持客户端和server端的重删功能,客户端重删功能可以减少网络传输的数据量,server端重删可以减少备份存储的空间,当然这些
重删功能都是要耗费cpu资源的,是否启用重删功能需要考虑一下真实的备份场景然后再做考虑,可以做适当的测试然后再逐步推广。
以上这些内容均是在企业当中真实遇到的问题,涉及到磁带库选型,硬件问题,规划配置,结合备份软件和压缩和重删,这也是运维工程师在日常当中
面对最多的问题。在此希望以上总结和梳理可以帮助到相关方面的工作人员,谢谢。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广