kyl123456
作者kyl1234562020-01-08 09:25
系统工程师, 某证券

超融合架构的存储重要性分析与某大型券商超融合转型实践

字数 3339阅读 3176评论 5赞 9

作者简介:

匡岳林 某知名大型券商信息技术中心高级经理 数据库 & 存储工程师

长期致力于数据库运维,存储规划等工作,对数据库优化,存储分级管理等有丰富经验,近年来紧跟分布式数据库,分布式存储等新兴技术,对分布式数据库和分布式存储的落地使用有独到的心得。

摘要:

本文通过分析某知名大型券商为何在数字化和智能化时代变革下选择超融合架构、产品选型的评估过程,并分享超融合架构运维的心得体会,如实地讲述了超融合架构在证券行业落地并取得良好的效益及超融合架构中分布式存储模块的关键作用,希望对未来计划落地超融合架构的同行有借鉴的意义。

1. 背景分析

1.1 某证劵原有 IT架构概述

作为国内排名前十的知名证券机构,某大型券商近年来一直非常关注如何通过金融科技提升公司各项业务指标以及整体竞争力,并从开发、运营到决策进行了大量数字化和智能化转型的工作,自然对 IT 基础架构部门也提出了更高的要求。基础架构的虚拟化、云化已是如火如荼地改造进行中。

IT 基础资源存在 三 种类型的虚拟机: 1 . V M ware 、 Hyper-V 、 KVM 等虚拟化工具生成的虚拟机; 2 . 超融合生成的虚拟机; 3 . 私有云生成的虚拟机。不同的虚拟机类型,都有其具体的使用场景:

部署类型 Vmware、Hyper-V、KVM 超融合 私有云
优点 部署简单,灵活,分布广泛 突破单台物理机虚拟机化的资源限制,管理运维简单 可自助申请资源
缺点 受限单台物理机的资源 规模一般在几十节点,并且集中于某个网段部署 比较复杂,成本较高
适用场景 分散的,零碎的虚拟机需求 集中于某个大网段的IT基础资源需求 公司统一规划的某个业务集合的IT基础资源需求

1.2 为何评估超融合架构

考虑引入超融合架构主要有两个方面的原因,一方面是超融合我们很早就在关注,通过和主流厂商的交流,看到近几年相关产品从功能到案例已经比较成熟。另一方面,原有的架构尤其在存储方面暴露的问题较多:

1 )传统的存储上线比较慢,而且随着数量和品牌越来越多,运维也比较复杂;

2 )扩展性不好,不同的存储池之间的资源使用也不均衡,所以每次需求都要做较长远资源规划和相应预算;

3 )从采购、使用到后期维保的成本偏高。

在 2017 年,我司某些业务需要扩容新的 IT 资源,系统初期设计的方案为 10 台 PC Server + 2 台磁盘阵列+ 2 台光纤交换机,各专家一致认为其成本较高,项目的成本收益比较低,而且采购上线需要的周期较长,所以借此机会,公司内部系统评估了超融合产品, 相 对于传统部署架构,超融合具有资源弹性、敏捷部署、资源利用率高、扩展简单方便等优点。据测算,如果部署超融合架构,我们可以在不影响用户使用体验的前提下多部署 3 - 5 倍的系统,故最终选择超融合方案。

2. 超融合架构中存储的重要性分析与评估

2.1 传统存储架构和超融合存储架构对比

相对于传统的架构,由于超融合的架构包含了存储、虚拟化、网络甚至服务器(一体机模式)等诸多模块,可能会无法找到评估的要点。但通过下图的架构对比可以看到,超融合架构影响最大的还是存储的部分。

相对于传统架构,超融合架构有以下几个大的区别:

  1. 存储从集中的控制器架构演变为分布式架构,相当于每个服务器都成为一个控制器,另外,每个节点都会配置 SSD 盘作为缓存;
  2. 使用标准和易于维护的 x86 服务器与万兆以太网交换机替代专有的存储硬件和网络;
  3. 存储不再是由 RAID 构成的不同存储空间,而是一个统一 的 可弹性扩展的存储池,并且具备更强的扩展能力;
  4. 计算虚拟化和存储部署于同一服务器节点。

以上对比可以看出,存储的架构,存储软硬件构成和存储部署模式都发生巨大的变化,而作为 IT 人员,我们非常清楚,存储在整个系统中的地位,不仅关乎业务连续性和数据可靠性,还直接影响到系统运行效率。另一方面,超融合带来的价值,例如弹性扩展,高并发性能等,其实都是分布式存储带来的。基于此,分布式存储成为对各超融合厂商的产品评估的重点。

2.2 超融合架构的分布式块存储评估的要点

对于超融合架构的分布式存储评估,我们主要从架构、实现、功能、实际的 POC 、案例情况进行了评估。

2.2.1 商业产品还是基于开源

目前国内超融合的玩家比较多,但如果从核心的存储来分的话就比较清晰,基本上国外的 Nutanix 、 VMware 等都是清一色的商业产品,国内除了 SmartX ,其他大部分厂商都是基于 Ceph , GlusterFS 等开源产品。我们内部的选择是商业的产品,原因 如下: 一方面是该架构计划在生产系统使用,我们希望原厂有真正的掌控和开发能力,而不是被动跟随开源社区。另一方面,类 Ceph 架构数据管理机制比较擅长海量的对象,对于 IOPS 和时延要求较高的场景并不适合,相对于而言, Nutanix 、 SmartX 的架构基于主要是围绕结构化存储专门设计的,相关场景下效率更高。

2.2.2 可靠性验证

虽然目前分布式存储的副本技术已经非常成熟,但我们还是针对具体的产品进行了比较多的可靠性相关验证,包括磁盘、整个节点等层面的故障模拟,另外,针对超融合特殊的部署方式,我们对分布式存储所在的控制器虚拟机的高可用也进行了故障模式,并从虚拟机角度评测业务的恢复时间,相关测试结果都达到了生产系统的要求。

2.2.3 性能

超融合架构下的性能优势主要来自于以下方面:

  1. 分布式的架构提升聚合性能;
  2. 每个节点的 SSD 缓存目前容量已经可以比较大,大部分情况应用都可以获得 SSD 的访问性能;
  3. 因为采用了超融合部署的模式, VM 可以直接访问本地的存储,减少访问网络的延迟,这是超融合独有的优势,并不是所有的分布式存储都具备这样的特性,例如 Ceph 采用哈希算法分布数据,没有办法实现数据的精准放置,目前 Nutanix 和 Smar t X 都支持这样的特性。

通过以上架构和实现的优化,例如 SmartX 超融合单节点实测 4K 随机读性能当时已经可以超过 4 万 IOPS ,而目前如果将 SSD 换成 NVM E 接口,单节点的 4K 随机读可以超过 9 万 IOPS ,对于最小系统的三个节点的话,已经可以接近目前中端的全闪的产品,如果扩展的话还可以做到更高。

关于超融合架构的性能,还需要关注的一个点就是分布式存储对资源的消耗是否合理,例如 Ceph 的资源消耗就比较高,也是不适合超融合架构的一个原因。

2.3 结论

除了以上重点指标,我们还针对可扩展性,运维便利性进行了充分的评估,整体的结论是目前一线的专业超融合产品已经可以满足生产环境的需求,并最终选择了 5 节点 Smart X 超融合用于满足新业务需求,而这一部分,在内部我们也是归属到分布式块存储池的部分。

3. 超融合架构实践效果和心得体会

在引入超融合架构的两年中, SmartX 集群已被扩容至 8 个节点,一直以来都运行稳定。有约半年的时间整个集群存储使用率超过 90% ,甚至最高峰的时候达到了 99% 。该集群仍然能够稳定运行,没发生过故障及数据丢失。除了运行稳定的优点外,产品体现了以下几个优势:

  1. 系统的可扩展性确实非常好,在近两年内先进行了一次 SSD 和硬盘的扩容,然后进行了一次 3 个节点扩容,并且这次扩容采用了不一样的服务器品牌, CPU 、内存、 SSD 都不一样,但 SmartX 超融合也可以很好的支持统一管理(这个是很多产品不能支持的);
  2. 故障窗口小,可靠性高,发生硬盘或者节点故障后,恢复时间仅为传统架构的 30% ;
  3. 运维更简单,只需运维标准 x86 服务器 + 万兆交换机 +SmartX 超融合软件,运维压力减少了很多, IT 人员可以把精力放在新技术的评估和使用上;
  4. 相比传统架构,采购成本降低 30% ,有效降低采购成本。
  5. 超融合存储使用率必须低于 100%-1/N*100% ( N 是节点数),使用率超过这个阈值,当节点宕机并不可修复的时候,会出现数据丢失。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

9

添加新评论5 条评论

#haozhangsir系统工程师, 银华
2020-01-13 11:48
这篇文章写的真的很贴合实际,专门负责这块才能写出。条理很清晰,分析的也到位,的确能给其他用户用于分享,确实很给力,一下就能看出是真实做过这项目的人写的
#seagl系统运维工程师, XXX商业银行
2020-01-10 09:39
非常好的文章,以后的架构模式又多了一种选择,非常感谢分享。特别是心得体会给架构人员很大帮助。
#huijx系统架构师, 华泰保险
2020-01-09 10:26
非常好的案例,谢谢分享。请问超融合节点之间的网络通信要求是什么?再就是本案例的虚机是什么类型,用什么管理?

kyl123@huijx 1、超融合节点之间网络含两种:一种是私有网络(用于数据存储同步),需万兆;一种是业务网络,千兆即可; 2、本案例的虚拟机是kvm类型,也可以接管VMware类型的虚拟机。

2020-01-10 09:41
#xiaoandyou技术总监, 兴业证券股份有限公司广东分公司
2020-01-08 16:45
和本行业关联度高,有学习借鉴价值,希望在实例方面有更多的描述和展示,便于学习吸收。
#15305419779zxy网络工程师, 山东大正公司
2020-01-08 13:28
本文章详实的对选择超融合架构、产品选型的评估过程,通过对在超融合架构在证券行业落地并取得良好的效益及超融合架构中分布式存储模块的关键作用,并对具体的效果阐述明了。 系统的可扩展性确实非常好;故障窗口小,可靠性高,相比传统架构,采购成本降低 30% ,有效降低采购成本。
Ctrl+Enter 发表

关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
© 2020  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30