1、重视巡检,巡检可以发现一些隐性故障,消除隐患
2、重视日志信息,特别是一些告警信息
3、重视数据备份,再好的存储也会出现意外
4、重视机器的使用期限,一般存储到了一定时限后,随着设备的老化会出现大大小小的故障,这个时间得做好设备更替的准备和数据备份
5、关注这个设备的微码等状态信息的更替,一个一个产品出来之后,厂商会发布一些新的微码补丁在网站上,每一个微码补丁是对原来微码bug的一个修复,建议多看看升级补丁微码的readme,必要时升级微码
个人觉的。对于存储系统。最重要的就是硬盘的健康了。现在的存储技术都很成熟,很少出现控制器的故障。电源故障一般都不会影响大大,唯独硬盘。往往是问题频发。定时检查存储里的硬盘状态,可以通过运维监控软件监控存储。也可以通过存储本身的管理界面去查看。
收起日常运维个人觉得最重要的是
1、要搭建一个完善的存储监控平台(存储,光交的监控),举个例子,同城实时复制,链路抖动时,光纤交换机端口的enc out和disc c3计数会明显增长,光交的错误日志也有可能会报出相关报错,但存储日志里不一定会给出类似报错。日常运维来说,无死角的监控是最重要的
2、定期做深度巡检,重视存储的日志告警信息,存储性能(控制器,前端端口,NAS存储网卡等)是否良好,提前消除隐患
3、关注设备的微码版本,遇重大bug,必要时升级微码