一线运维老司机整理的存储系统日常运维和故障诊断经验

字数 2424阅读 6767评论 1赞 15

数据对于一个企业来说是极为重要的，一旦数据被破坏或丢失，就会对企业日常生产造成重大的影响，甚至是难以弥补的损失。

随着企业业务量的增加，数据量也在不断的增涨，存储系统作为数据的载体越来越体现出了它的重要性，存储技术的不断创新，提升了数据的安全性，增强了业务系统的可靠性，为了满足业务系统的要求存储系统需要每天24小时、每周7天、每年365天处于就绪状态。那么如何保障数据的安全性和业务的连续性呢？做好存储系统的日常运维工作提前发现并解决问题，保障了存储系统的正常运行才能保障数据的安全性和业务的连续性。

1.存储系统的安装调试、巡检、故障诊断、处理

1)重视巡检，巡检可以发现一些隐性故障，消除隐患，例如存储设备或硬盘亮桔色灯时要及时发现并处理
2)重视日志信息，特别是一些告警信息
3)重视数据备份，再好的存储也会出现意外
4)重视机器的使用期限，一般存储到了一定时限（通常是过保修期）后，随着设备的老化会出现大大小小的故障，这个时间得做好设备更替的准备和数据备份
5)关注这个设备的微码等状态信息的更替，一个产品出来之后，厂商会发布一些新的微码补丁在网站上，每一个微码补丁是对原来微码bug的一个修复，建议多看看升级补丁微码的readme，必要时升级微码

2.存储系统的容灾、备份恢复测试

数据是最重要的，有备份心里才踏实。

两地三中心容灾备份案例：

同城和异地灾备中心各增加一台IBM v7000设备，生产中心的IBM Flashsystem v9000与同城灾备中心的v7000采用Svc Metro Mirror 同步复制技术实现数据的高可用，传输线路采用祼光纤，生产中心与异地灾备中心之间的线路选择普通专线的方式，采用Svc Global Mirror异步复制技术实现数据的高可用。

3.存储系统的访问监控、跟踪、记录与分析

1)要搭建一个完善的存储监控平台（存储，光交的监控），举个例子，同城实时复制，链路抖动时，光纤交换机端口的enc out和disc c3计数会明显增长，光交的错误日志也有可能会报出相关报错，但存储日志里不一定会给出类似报错。日常运维来说，无死角的监控是最重要的
2)定期做深度巡检，重视存储的日志告警信息，存储性能（控制器，前端端口，NAS存储网卡等）是否良好，提前消除隐患
3)关注设备的微码版本，遇重大bug，必要时升级微码

4.存储系统的容量规划，存储空间使用和分配

1)存储系统硬盘的选择，可选择全闪存，传统的HDD磁盘或是闪存与HDD混合配置。
2)传统的HDD磁盘类型选择，10k、15k，sata硬盘等。
3)RAID的创建，选择RAID5或RAID10。RAID5 同时兼顾读写性能、安全性和更高磁盘使用效率，但是对RAID卡本身的性能要求较高（价格也高），否则写入性能很差，出问题时阵列修复也很慢，但盘越多iops越高。RAID 5 适用于归档，且适合那些追求性能并要求持续访问数据的用户（如视频编辑人员）使用；RAID10 高磁盘使用效率低，但是对RAID卡本身的性能要求不高，读写性能比较均衡、安全性与RAID5一致，出问题时更容易恢复，raid10 应用于对速度和容错有较高要求的场景！
4)存储容量规划一般要结合应用比较好，规划lun的大小。
5)存储容量计算案例：
在线存储容量确认：医院数据交换平台每天新增数据量200G，为医生提供1年内的在线资料查询，因此需保存的在线可用容量是：200GB/日*365天=73000GB=73TB，当存储空间的使用率达到80%时，其性能将下降，另外考虑冗余空间20%，因此总空间需求为：73TB/80%=91.25TB。考虑到数据的安全及高可用，存储采用RAID5的方式，存储祼容量应为：91.25TB/75%=121.7TB，另外再考虑到热备盘、数据库空间及文件的损耗，推荐配置150TB的总存存储容量。
离线存储空间需求：考虑数据归档和备份系统：存储容量应大于全院10年的数据总量，因此建议配置备份容量为1500TB，配置磁带数量：1500TB/LTO5 1.5TB=约1000盘。

存储维护的一些小技巧分享：

针对IBM FasT系列，ds3000/4000/5000系列，比较老的产品了，估计也就干MA的用的上了。

更换硬盘，建议采用新的硬盘。这里的新盘指的是初始化过的，不含raid信息的。v7版本的微码对这个要求不大，带信息也可以用。v6的话旧盘需要执行禁用磁盘迁移脚本，这个动作太大，还是强烈建议使用新盘，省事。
有的时候更好磁盘会提示不兼容的现象，这里抛开备件质量问题。建议发货前做清除盘头dac的操作。建议供货商做就行，不建议在生产存储做。清除dac方法论坛里有，不发了
impending failure的盘，手工fail掉再做更换，不要直接拔。v6版本fail掉前建议先取消热备
v7版本下已经被热备顶替的磁盘更好，可以通过菜单更新热备盘为数据盘。再新的数据盘做热备，省的等同步了
ds3000系列，图形操作特别少，好多操作需要执行命令，比如fail drive，脚本执行器里执行即可。
raid降级了，盘都是好的。确实是盘坏了，只是sm里显示不出来，通过命令读取盘头的状态可以知道哪个盘坏了，然后fail drive更换对应的盘即可。
多块盘损坏的情况，根据event log，再revive drive，十有八九能找回来。
针对IBM v系列的存储，最好不要用IE登录，有条件就下载老版本的火狐浏览器，能够规避很多问题，如GUI显示不全面、ssl安全加密、非兼容浏览器等问题。

关于服务器Raid5双盘失效的故障，如果是存储阵列，那么故障解决思路类似。处理过程如下：