nkj827
作者nkj827·2017-07-04 10:14
项目经理·长春长信华天

一线运维老司机整理的存储系统日常运维和故障诊断经验

字数 2424阅读 6767评论 1赞 15

数据对于一个企业来说是极为重要的,一旦数据被破坏或丢失,就会对企业日常生产造成重大的影响,甚至是难以弥补的损失。

随着企业业务量的增加,数据量也在不断的增涨,存储系统作为数据的载体越来越体现出了它的重要性,存储技术的不断创新,提升了数据的安全性,增强了业务系统的可靠性,为了满足业务系统的要求存储系统需要每天24小时、每周7天、每年365天处于就绪状态。那么如何保障数据的安全性和业务的连续性呢?做好存储系统的日常运维工作提前发现并解决问题,保障了存储系统的正常运行才能保障数据的安全性和业务的连续性。

1.存储系统的安装调试、巡检、故障诊断、处理

1)重视巡检,巡检可以发现一些隐性故障,消除隐患,例如存储设备或硬盘亮桔色灯时要及时发现并处理
2)重视日志信息,特别是一些告警信息
3)重视数据备份,再好的存储也会出现意外
4)重视机器的使用期限,一般存储到了一定时限(通常是过保修期)后,随着设备的老化会出现大大小小的故障,这个时间得做好设备更替的准备和数据备份
5)关注这个设备的微码等状态信息的更替,一个产品出来之后,厂商会发布一些新的微码补丁在网站上,每一个微码补丁是对原来微码bug的一个修复,建议多看看升级补丁微码的readme,必要时升级微码

2.存储系统的容灾、备份恢复测试

数据是最重要的,有备份心里才踏实。

两地三中心容灾备份案例:

同城和异地灾备中心各增加一台IBM v7000设备,生产中心的IBM Flashsystem v9000与同城灾备中心的v7000采用Svc Metro Mirror 同步复制技术实现数据的高可用,传输线路采用祼光纤,生产中心与异地灾备中心之间的线路选择普通专线的方式,采用Svc Global Mirror异步复制技术实现数据的高可用。

3.存储系统的访问监控、跟踪、记录与分析

1)要搭建一个完善的存储监控平台(存储,光交的监控),举个例子,同城实时复制,链路抖动时,光纤交换机端口的enc out和disc c3计数会明显增长,光交的错误日志也有可能会报出相关报错,但存储日志里不一定会给出类似报错。日常运维来说,无死角的监控是最重要的
2)定期做深度巡检,重视存储的日志告警信息,存储性能(控制器,前端端口,NAS存储网卡等)是否良好,提前消除隐患
3)关注设备的微码版本,遇重大bug,必要时升级微码

4.存储系统的容量规划,存储空间使用和分配

1)存储系统硬盘的选择,可选择全闪存,传统的HDD磁盘或是闪存与HDD混合配置。
2)传统的HDD磁盘类型选择,10k、15k,sata硬盘等。
3)RAID的创建,选择RAID5或RAID10。RAID5 同时兼顾读写性能、安全性和更高磁盘使用效率,但是对RAID卡本身的性能要求较高(价格也高),否则写入性能很差,出问题时阵列修复也很慢,但盘越多iops越高。RAID 5 适用于归档,且适合那些追求性能并要求持续访问数据的用户(如视频编辑人员)使用;RAID10 高磁盘使用效率低,但是对RAID卡本身的性能要求不高,读写性能比较均衡、安全性与RAID5一致,出问题时更容易恢复,raid10 应用于对速度和容错有较高要求的场景!
4)存储容量规划一般要结合应用比较好,规划lun的大小。
5)存储容量计算案例:
在线存储容量确认:医院数据交换平台每天新增数据量200G,为医生提供1年内的在线资料查询,因此需保存的在线可用容量是:200GB/日*365天=73000GB=73TB,当存储空间的使用率达到80%时,其性能将下降,另外考虑冗余空间20%,因此总空间需求为:73TB/80%=91.25TB。考虑到数据的安全及高可用,存储采用RAID5的方式,存储祼容量应为:91.25TB/75%=121.7TB,另外再考虑到热备盘、数据库空间及文件的损耗,推荐配置150TB的总存存储容量。
离线存储空间需求:考虑数据归档和备份系统:存储容量应大于全院10年的数据总量,因此建议配置备份容量为1500TB,配置磁带数量:1500TB/LTO5 1.5TB=约1000盘。

存储维护的一些小技巧分享:

针对IBM FasT系列,ds3000/4000/5000系列,比较老的产品了,估计也就干MA的用的上了。

  1. 更换硬盘,建议采用新的硬盘。这里的新盘指的是初始化过的,不含raid信息的。v7版本的微码对这个要求不大,带信息也可以用。v6的话旧盘需要执行禁用磁盘迁移脚本,这个动作太大,还是强烈建议使用新盘,省事。
  2. 有的时候更好磁盘会提示不兼容的现象,这里抛开备件质量问题。建议发货前做清除盘头dac的操作。建议供货商做就行,不建议在生产存储做。清除dac方法论坛里有,不发了
  3. impending failure的盘,手工fail掉再做更换,不要直接拔。v6版本fail掉前建议先取消热备
  4. v7版本下已经被热备顶替的磁盘更好,可以通过菜单更新热备盘为数据盘。再新的数据盘做热备,省的等同步了
  5. ds3000系列,图形操作特别少,好多操作需要执行命令,比如fail drive,脚本执行器里执行即可。
  6. raid降级了,盘都是好的。 确实是盘坏了,只是sm里显示不出来,通过命令读取盘头的状态可以知道哪个盘坏了,然后fail drive更换对应的盘即可。
  7. 多块盘损坏的情况,根据event log,再revive drive,十有八九能找回来。
  8. 针对IBM v系列的存储,最好不要用IE登录,有条件就下载老版本的火狐浏览器,能够规避很多问题,如GUI显示不全面、ssl安全加密、非兼容浏览器等问题。

关于服务器Raid5双盘失效的故障,如果是存储阵列,那么故障解决思路类似。处理过程如下:

  1. 确认Raid卡厂商是LSI
  2. 进Raid卡图形界面webbios,根据槽位号把最后坏的那块盘强制拉起来
  3. 用新盘把第一块坏盘换掉。
  4. 等待数据重构完成。
  5. 第一块盘重构完成之后,正常换第二块盘(已经强制拉起来的最后坏的那块盘)就行了。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

15

添加新评论1 条评论

zw85476928zw85476928存储工程师北京无极大数据科技有限公司
2020-03-05 11:35
满满的干货啊。
Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广