doc
作者doc2018-04-14 09:35
项目经理, 长春理想

IBM、EMC、HDS等存储系统运维难点与故障处理总结

字数 3298阅读 514评论 3赞 12

IBM、EMC、HDS等存储系统运维难点与故障处理总结
随着存储单位成本急剧下降,大容量存储设备已经逐渐为更多的中小企业所应用,用于保存企业业务应用系统和IT系统的数据,比如电子邮件,文档,业务数据,包括数据备份等。对存储设备的有效管理关系到企业业务的持续性和稳定性。
随着企业业务量的增加,数据量也在不断的增涨,存储设备作为数据的载体越来越体现出了它的重要性,存储技术的不断创新,提升了数据的安全性,增强了业务系统的可靠性,为了满足业务系统的要求存储设备需要不间断的处于就绪状态。那么如何保障企业业务的持续性和稳定性呢?做好存储设备的日常运维工作提前发现并解决问题,保障了存储设备的正常运行才能保障数据的安全性和业务的连续性。
本次活动主要从以下几点与大家交流学习,包括存储系统的巡检、故障诊断、处理,存储系统常见的故障有哪些以及如何处理等。
1、 v7000更换硬盘有哪些注意事项?
1) v7k和ds4k 5k有很多的不同,换磁盘就是其一!直接插拔磁盘不能完成磁盘的更换,而且将导致 legacy drive信息的产生,必须借助 CLI命令才能去除。
2) 按 Follow DMP (Directed Maintenance Procedures) 的指导,从 fix procedure 的GUI界面完成;
3) 如果按照dmp的指导不能更换,请按照下面的步骤来:
确认坏盘的id,这个自己去看文档了!一定要确认坏盘的物理位置,而且盘的灯确认是琥珀色的。拔出坏盘,更换新盘。
进入gui以后看见新盘也是offline和fail状态,右键这个磁盘,标记为unused,成功后再改成candidate,再次成功后再改成spare 。
稍等,mdisk就会重建。完成后报警灯消除!
2、 DS5020 逻辑驱动降级了如何处理?
1) 正常情况是存储出现一块硬盘损坏亮黄灯,这时热备盘会代替坏硬盘,查看日志确认硬盘损坏,换一块新硬盘即可,这时热备盘中的数据同步到新硬盘中,热备盘恢复原来的热备功能。楼主的情况需要最近再观察存储的工作状态才能确认是否是硬盘坏了。
2) 降级就卷组存在故障磁盘,丢失一个或多个校验位磁盘,虽然数据仍让是完整的,但丧失了Raid保护机制,如果再有磁盘故障,数据丢失的风险会很大。实际情况可能是没有配置热备磁盘,也可能是当前故障盘多余热备盘。如果发现降级情况,应该及时更换状态异常的磁盘。
3、 存储系统状态是impending failure的盘如何处理?
针对这个问题分三步操作:
1) 手工Fail Drive
2) 拔下硬盘
3) 等待30秒以上,插入新的硬盘,查看状态,应该正在同步,等待阵列同步完成,时间视数据量大小而定
4、 异构平台的存储监控
1) 通过SNMP trap或者syslog将错误信息自动发出去,如果有短信平台,可以直接发到短信平台;
2) 买一套可以支持异构存储的管理软件,比如IBM TPC ,HP SE,EMC ECC等等,不过管理软件还是对自家存储支持好,第三方的支持一定要仔细确认一下。
5、 VNX阵列划分一个LUN,推荐最优配置是多大?
1) 通常LUN划分多少大主要是看前端应用的需求。比如你要创建一个2TB的LUN给一台Windows主机做共享目录,那你可以选择创建一个2TB的Pool LUN(可以是Thin LUN,这样前端用多少空间就占用存储端多少空间;如果是Thick LUN,那一开始就会占用存储端2TB的空间)。除了虚拟资源分配,Pool LUN还支持全自动存储分层(FAST),如果你阵列中有SSD闪存盘,性能可以上一个台阶。
2) 如果是给oracle用的话,一块盘大小在66G到133G左右性能最好,一般推荐100G一块盘,给文件系统使用的话当然一块大盘就可以了,至于存储端划盘受限,中端存储一个pool Lun可以到几十TB,系统端的受限来自磁盘数量和大小的限制都有,我记得Linux默认可以支持256个Lun,当然改设置的话最大支持到4096个,而大小的限制主要是fdisk分区的话最大支持2TB。
3) lun的大小要以业务应用的要求为准。lun的大小不易包含过多的硬盘,包含的硬盘数量越多,故障点也就越多,需要在性能与故障之间平衡硬盘的数量。
6、 V5000和V7000换电池控制器等操作真的是个雷区吗?
V7000每控制器会固定带有一块电池,V7000中的两块电池在两个控制器之间 是共享的,如果有一块电池损坏,当V7000意外断电的时候,状态正常的一块电池可以拥有足够的电量把V7000配置信息以及写缓存中的数据安全的写入到 V7000的内部磁盘中。当V7000中电池充电不足或者两块电池均损坏的情况下,V7000无法启动系统,必须等待充电完成或修复电池才可正常启动。
7、 DS8700怎么在线更换控制器风扇?
1) 通过SMC(Storage Management Console)走Repair流程。跟HMC界面差不多。Repair过程会在后台切换控制器,将风扇故障控制器poweroff,接下来的事儿就是给P6 570更换风扇了。继续Repair流程,SD8700会启动控制器,并自动切换负载。要一步一步仔细看Repair流程的说明。
2) 普通中低存储一盘来说都是热插拔的。但是高端存储没有听说可以直接拔插的,IBM DS8000、EMC DMX、HP XP这些都是要从管理控制台走相应的修复流程的!IBM DS8000系列存储都要通过HMC的Repair流程修复,不能直接更换!HMC流程有提示你更换步骤和方法的!
8、 虚拟化方案如何规划存储?
在进行存储I/O设计时,我们可以参考以下设计原则:
1) 请确保您的数据均匀地分布在所有的物理磁盘中。如果您的数据仅位于几个盘中,那么使用多个逻辑单元号(LUN)或物理磁盘又有什么实际意义呢?
2) 如果您使用了SAN或其他类型的存储阵列,那么您应该尝试在创建阵列时使它们具有相同的大小和类型。您还应该在创建它们时,为每个阵列使用LUN,然后将所有的逻辑卷分散到卷组中的所有物理卷。
3) 您还应该确保镜像位于不同的磁盘和适配器。
4) 数据库索引表空间容器和数据表空间容器也应该位于不同的物理磁盘。
5) 对于表空间容器和数据库日志,应该存放到不同的RAID GROUP上。
6) 物理设备方面。使用高速适配器连接磁盘驱动器,具有大的Cache,这一点是非常重要的,但是您必须确保总线本身不会成为瓶颈。要防止这种情况发生,确保将适配器分散到多个总线。同时,不要将过多的物理磁盘或LUN连接到任何一个适配器,因为这样做也会对性能产生极大的影响。您配置的适配器越多越好,特别是在大量磁盘的利用率都很高的情况下。
7) 您还应该确保设备驱动程序尽可能支持多路径 I/O (MPIO),MPIO支持 I/O 子系统的负载平衡和流量控制。
8) 监控存储Cache的命中率,确保Cache的大小设置应该与业务特点(是OLTP还是OLAP业务类型)和数据页(data page)的大小设置合理。
9) 选择合适的RAID级别。根据自己应用系统的业务类型来选择合适的RAID级别。一般来说,有以下两种典型的业务类型:
70/30/50--70%读,30%写,Cache命中率50%,这是典型的高并发OLTP系统。
100/100--100%读,100%写,这是典型的OLAP、DSS系统。
对于小I/O的数据库类型操作,如ERP、银行账务系统、移动计费系统等应用,建议采用RAID 10;而大型文件存储、数据仓库,如报表系统、数据集市系统,从空间利用的角度,建议采用RAID 5。
10) 在存储上选择合适的条带化大小(stripe size),确保条带化大小要和数据库的I/O特点结合,因为对于OLTP应用,数据库I/O基本是随机小块读写;而对于OLAP应用,数据库I/O是连续大块读写。
11) 确保操作系统层面和存储层面的条带化大小设置一致,操作系统方面的条带化大小尽量大些。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

12
{}

添加新评论3 条评论

#wuwenpin软件开发工程师, 南京
2018-04-27 17:45
学习一下
#laq00098技术支持, 神州数码有限公司
2018-04-18 11:04
很牛!分析透彻
#hn_linux系统运维工程师, IT
2018-04-14 21:43
老江湖了。。。
Ctrl+Enter 发表

作者其他文章

相关文章

关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
© 2018  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30