全闪存存储架构实施过程中有哪些难点?贵企业是如何攻克的?

参与10

1同行回答

wangshuai_gowangshuai_go  存储工程师 , 证券
这里分析一个我司的使用全闪存使用中遇到的一个极其顽固难解决的性能问题案例分享。首先说一个我司这变态数据库的IO 模型,绝对够吓人:数据库量85TB1.png读写比在2:1左右顺序读占IO的40%左右,离散度占IO的13%;读IO size 在150K~350K , 要求读延迟均值<5ms (5万 IO...显示全部

这里分析一个我司的使用全闪存使用中遇到的一个极其顽固难解决的性能问题案例分享。

首先说一个我司这变态数据库的IO 模型,绝对够吓人:
数据库量85TB
1.png

1.png

读写比在2:1左右
顺序读占IO的40%左右,离散度占IO的13%;
读IO size 在150K~350K , 要求读延迟均值<5ms (5万 IOPS,300KB size换算成4KB size 就是越350万IOPS )
写IO size 在 100K~300K ,要求写延迟均值<3ms
请在市场上找出可以满足改数据库的全闪存存储,很多公司的闪存见了都要呵呵绕路走!!!

顽固性能问题描述:
我司两年前用的是SVC +后端FLASH900 架构,用了年后就完全满足不了。今年改成A9000R全闪存后该数据库还是在业务高峰期出现严重IO性能降低的问题。

经过一系列的架构整改终于不再出现性能问题,满足也业务的需求。具体整改方法如下:

单纯的存储端优化: 更改存储架构: 随着业务的进一步增加SVC前置压缩 +后端FLASH900 架构也越越频繁的出现性能瓶颈。 首先想到的就更换性能更强大的存储,将该数据迁移到新购置的A9000R全闪存,同时跳出SVC 虚拟化层,从而使存储端有能力提供更高的IOPS和更低的读写延迟。

单纯存储端优化效果: 换了更牛B好几倍的A9000R闪存后。没到2周开始在作业高峰期再次频繁出现IO性能问题,并且在非作业的高峰期只要一发起全备份(在生产主机上直接发起全备份,呵呵这个报表大数据分析库,为了省钱就直接这样备份了。),该数据读写延迟就会上升几十倍甚至百倍,从50ms ~500ms不等。纳尼这那是闪存的性能!!! 于是不停的推动IBM L3分析分析再分析,IBM 分析的结构是说存储是闪存足够快,没有性能瓶颈,瓶颈似乎是在SAN网络延迟方面。

优化SAN网络传输带宽: 之前也一直在做主机端和SAN网络带宽方面的分析。分析下来主机CPU/Memory 不是瓶颈,DISK max util 这个值在性能问题时间段经常保持在70%~95%,这明白说明了存储慢。主机上有6个8GB HBA 口,4个接存储跑业务流量,2个接带库跑备份流量,通过BNA (Brocade Network Aviator )多次观察历史数据发现业务的4个端口从来没有跑满过,FC 链路单向最大带宽使用率也就是在70%,但是发现备份的2个HBA 口在全备份期间总是跑满。
另外一个现象是90%的出现IO漫的情况时,应用慢的时候刚好有全备份在跑,全备份停止几个小时后数据库IO恢复正常。个别时间段业务量大时,在没有备份的情况下IO性能也变慢。

根据以上现象就比较难下手了。但是备份争抢业务IO 导致业务IO变慢这个问题基本可以确定了。备份2 个HBA 口已经跑满,一定要升级优化的,业务的4个HBA 口最大单带宽使用率在70%,预计也快到瓶颈了。
于是和主机组商量后果断切换到新配置主机,新配置主机配置4个16GB HBA口跑业务流量,2个16GB HBA 口跑备份流量。从而完成了SAN网络带宽的升级优化。

优化SAN网络传输带宽效果:效果就是在不跑全备份时再也没有出现过应用IO慢的情况了。 而且还有一个现象就是在旧的主机上4个8GB业务HBA 口时,存储到该数据库的最大FC 带宽也就跑到3.5GB 的样子。但是新主机换成4个16GB 的业务HBA口后,最大存储FC带宽竟然一下飙到8GB,均值在3.5GB 相当于老主机上的峰值带宽。这验证了IBM L3的分析,性能瓶颈在SAN网络传输和延迟方面。
HBA 口都升级到16GB后,备份流量带宽也没有跑满了,但是在发起全备份时间段还是偶尔导致应用IO性能满的情况出现。

优化备份架构: 全备份架构整改正“基于存储快照的异机解耦合server free备份”架构。 就是在A9000R存储做快照(数据库端需要begin backup操作),将快照卷挂到另外一台单独的主机上做数据库做全备份。这样就避免了直接在生产主机做全备份,避免了备份IO和业务IO争抢导致业务IO变慢的问题。

优化备份架构后效果: 该数据库在业务高峰时段同时做全备份时也未再报出IO性能问题。

总结:在全闪存时段,根据我司的经验多数性能问题都不是存储本身性能到了瓶颈所致,多数性能瓶颈都是在网络传输层面和架构层面: 比如应该用更快的16GB 网络替换旧一代的8GB 网络,比如要多关注HBA 口,存储FC 端口的queue depth 是否full 跑满,SAN SFP,光纤是否老化等问题。

全闪存系统架构中的性能瓶颈
1.png

1.png

从架构层面优化全闪存性能-降低延迟提升IOPS
2.png

2.png

收起
证券 · 2017-11-20
浏览1243

提问者

谢谢侬cyx
系统架构师上海银行
擅长领域: 系统运维云管平台云计算

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-11-17
  • 关注会员:3 人
  • 问题浏览:3499
  • 最近回答:2017-11-20
  • X社区推广