数据对于一个企业来说是极为重要的,一旦数据被破坏或丢失,就会对企业日常生产造成重大的影响,甚至是难以弥补的损失。
随着企业业务量的增加,数据量也在不断的增涨,存储系统作为数据的载体越来越体现出了它的重要性,存储技术的不断创新,提升了数据的安全性,增强了业务系统的可靠性,为了满足业务系统的要求存储系统需要每天24小时、每周7天、每年365天处于就绪状态。那么如何保障数据的安全性和业务的连续性呢?做好存储系统的日常运维工作提前发现并解决问题,保障了存储系统的正常运行才能保障数据的安全性和业务的连续性。
1)重视巡检,巡检可以发现一些隐性故障,消除隐患,例如存储设备或硬盘亮桔色灯时要及时发现并处理
2)重视日志信息,特别是一些告警信息
3)重视数据备份,再好的存储也会出现意外
4)重视机器的使用期限,一般存储到了一定时限(通常是过保修期)后,随着设备的老化会出现大大小小的故障,这个时间得做好设备更替的准备和数据备份
5)关注这个设备的微码等状态信息的更替,一个产品出来之后,厂商会发布一些新的微码补丁在网站上,每一个微码补丁是对原来微码bug的一个修复,建议多看看升级补丁微码的readme,必要时升级微码
数据是最重要的,有备份心里才踏实。
两地三中心容灾备份案例:
同城和异地灾备中心各增加一台IBM v7000设备,生产中心的IBM Flashsystem v9000与同城灾备中心的v7000采用Svc Metro Mirror 同步复制技术实现数据的高可用,传输线路采用祼光纤,生产中心与异地灾备中心之间的线路选择普通专线的方式,采用Svc Global Mirror异步复制技术实现数据的高可用。
1)要搭建一个完善的存储监控平台(存储,光交的监控),举个例子,同城实时复制,链路抖动时,光纤交换机端口的enc out和disc c3计数会明显增长,光交的错误日志也有可能会报出相关报错,但存储日志里不一定会给出类似报错。日常运维来说,无死角的监控是最重要的
2)定期做深度巡检,重视存储的日志告警信息,存储性能(控制器,前端端口,NAS存储网卡等)是否良好,提前消除隐患
3)关注设备的微码版本,遇重大bug,必要时升级微码
1)存储系统硬盘的选择,可选择全闪存,传统的HDD磁盘或是闪存与HDD混合配置。
2)传统的HDD磁盘类型选择,10k、15k,sata硬盘等。
3)RAID的创建,选择RAID5或RAID10。RAID5 同时兼顾读写性能、安全性和更高磁盘使用效率,但是对RAID卡本身的性能要求较高(价格也高),否则写入性能很差,出问题时阵列修复也很慢,但盘越多iops越高。RAID 5 适用于归档,且适合那些追求性能并要求持续访问数据的用户(如视频编辑人员)使用;RAID10 高磁盘使用效率低,但是对RAID卡本身的性能要求不高,读写性能比较均衡、安全性与RAID5一致,出问题时更容易恢复,raid10 应用于对速度和容错有较高要求的场景!
4)存储容量规划一般要结合应用比较好,规划lun的大小。
5)存储容量计算案例:
在线存储容量确认:医院数据交换平台每天新增数据量200G,为医生提供1年内的在线资料查询,因此需保存的在线可用容量是:200GB/日*365天=73000GB=73TB,当存储空间的使用率达到80%时,其性能将下降,另外考虑冗余空间20%,因此总空间需求为:73TB/80%=91.25TB。考虑到数据的安全及高可用,存储采用RAID5的方式,存储祼容量应为:91.25TB/75%=121.7TB,另外再考虑到热备盘、数据库空间及文件的损耗,推荐配置150TB的总存存储容量。
离线存储空间需求:考虑数据归档和备份系统:存储容量应大于全院10年的数据总量,因此建议配置备份容量为1500TB,配置磁带数量:1500TB/LTO5 1.5TB=约1000盘。
针对IBM FasT系列,ds3000/4000/5000系列,比较老的产品了,估计也就干MA的用的上了。
关于服务器Raid5双盘失效的故障,如果是存储阵列,那么故障解决思路类似。处理过程如下:
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞15
添加新评论1 条评论
2020-03-05 11:35