作者简介:
匡岳林 某知名大型券商信息技术中心高级经理 数据库 & 存储工程师
长期致力于数据库运维,存储规划等工作,对数据库优化,存储分级管理等有丰富经验,近年来紧跟分布式数据库,分布式存储等新兴技术,对分布式数据库和分布式存储的落地使用有独到的心得。
摘要:
本文通过分析某知名大型券商为何在数字化和智能化时代变革下选择超融合架构、产品选型的评估过程,并分享超融合架构运维的心得体会,如实地讲述了超融合架构在证券行业落地并取得良好的效益及超融合架构中分布式存储模块的关键作用,希望对未来计划落地超融合架构的同行有借鉴的意义。
作为国内排名前十的知名证券机构,某大型券商近年来一直非常关注如何通过金融科技提升公司各项业务指标以及整体竞争力,并从开发、运营到决策进行了大量数字化和智能化转型的工作,自然对 IT 基础架构部门也提出了更高的要求。基础架构的虚拟化、云化已是如火如荼地改造进行中。
IT 基础资源存在 三 种类型的虚拟机: 1 . V M ware 、 Hyper-V 、 KVM 等虚拟化工具生成的虚拟机; 2 . 超融合生成的虚拟机; 3 . 私有云生成的虚拟机。不同的虚拟机类型,都有其具体的使用场景:
部署类型 | Vmware、Hyper-V、KVM | 超融合 | 私有云 |
优点 | 部署简单,灵活,分布广泛 | 突破单台物理机虚拟机化的资源限制,管理运维简单 | 可自助申请资源 |
缺点 | 受限单台物理机的资源 | 规模一般在几十节点,并且集中于某个网段部署 | 比较复杂,成本较高 |
适用场景 | 分散的,零碎的虚拟机需求 | 集中于某个大网段的IT基础资源需求 | 公司统一规划的某个业务集合的IT基础资源需求 |
考虑引入超融合架构主要有两个方面的原因,一方面是超融合我们很早就在关注,通过和主流厂商的交流,看到近几年相关产品从功能到案例已经比较成熟。另一方面,原有的架构尤其在存储方面暴露的问题较多:
1 )传统的存储上线比较慢,而且随着数量和品牌越来越多,运维也比较复杂;
2 )扩展性不好,不同的存储池之间的资源使用也不均衡,所以每次需求都要做较长远资源规划和相应预算;
3 )从采购、使用到后期维保的成本偏高。
在 2017 年,我司某些业务需要扩容新的 IT 资源,系统初期设计的方案为 10 台 PC Server + 2 台磁盘阵列+ 2 台光纤交换机,各专家一致认为其成本较高,项目的成本收益比较低,而且采购上线需要的周期较长,所以借此机会,公司内部系统评估了超融合产品, 相 对于传统部署架构,超融合具有资源弹性、敏捷部署、资源利用率高、扩展简单方便等优点。据测算,如果部署超融合架构,我们可以在不影响用户使用体验的前提下多部署 3 - 5 倍的系统,故最终选择超融合方案。
相对于传统的架构,由于超融合的架构包含了存储、虚拟化、网络甚至服务器(一体机模式)等诸多模块,可能会无法找到评估的要点。但通过下图的架构对比可以看到,超融合架构影响最大的还是存储的部分。
相对于传统架构,超融合架构有以下几个大的区别:
以上对比可以看出,存储的架构,存储软硬件构成和存储部署模式都发生巨大的变化,而作为 IT 人员,我们非常清楚,存储在整个系统中的地位,不仅关乎业务连续性和数据可靠性,还直接影响到系统运行效率。另一方面,超融合带来的价值,例如弹性扩展,高并发性能等,其实都是分布式存储带来的。基于此,分布式存储成为对各超融合厂商的产品评估的重点。
对于超融合架构的分布式存储评估,我们主要从架构、实现、功能、实际的 POC 、案例情况进行了评估。
目前国内超融合的玩家比较多,但如果从核心的存储来分的话就比较清晰,基本上国外的 Nutanix 、 VMware 等都是清一色的商业产品,国内除了 SmartX ,其他大部分厂商都是基于 Ceph , GlusterFS 等开源产品。我们内部的选择是商业的产品,原因 如下: 一方面是该架构计划在生产系统使用,我们希望原厂有真正的掌控和开发能力,而不是被动跟随开源社区。另一方面,类 Ceph 架构数据管理机制比较擅长海量的对象,对于 IOPS 和时延要求较高的场景并不适合,相对于而言, Nutanix 、 SmartX 的架构基于主要是围绕结构化存储专门设计的,相关场景下效率更高。
虽然目前分布式存储的副本技术已经非常成熟,但我们还是针对具体的产品进行了比较多的可靠性相关验证,包括磁盘、整个节点等层面的故障模拟,另外,针对超融合特殊的部署方式,我们对分布式存储所在的控制器虚拟机的高可用也进行了故障模式,并从虚拟机角度评测业务的恢复时间,相关测试结果都达到了生产系统的要求。
超融合架构下的性能优势主要来自于以下方面:
通过以上架构和实现的优化,例如 SmartX 超融合单节点实测 4K 随机读性能当时已经可以超过 4 万 IOPS ,而目前如果将 SSD 换成 NVM E 接口,单节点的 4K 随机读可以超过 9 万 IOPS ,对于最小系统的三个节点的话,已经可以接近目前中端的全闪的产品,如果扩展的话还可以做到更高。
关于超融合架构的性能,还需要关注的一个点就是分布式存储对资源的消耗是否合理,例如 Ceph 的资源消耗就比较高,也是不适合超融合架构的一个原因。
除了以上重点指标,我们还针对可扩展性,运维便利性进行了充分的评估,整体的结论是目前一线的专业超融合产品已经可以满足生产环境的需求,并最终选择了 5 节点 Smart X 超融合用于满足新业务需求,而这一部分,在内部我们也是归属到分布式块存储池的部分。
在引入超融合架构的两年中, SmartX 集群已被扩容至 8 个节点,一直以来都运行稳定。有约半年的时间整个集群存储使用率超过 90% ,甚至最高峰的时候达到了 99% 。该集群仍然能够稳定运行,没发生过故障及数据丢失。除了运行稳定的优点外,产品体现了以下几个优势:
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞10
添加新评论5 条评论
2020-01-13 11:48
2020-01-10 09:39
2020-01-09 10:26
kyl123: @huijx 1、超融合节点之间网络含两种:一种是私有网络(用于数据存储同步),需万兆;一种是业务网络,千兆即可; 2、本案例的虚拟机是kvm类型,也可以接管VMware类型的虚拟机。
2020-01-08 16:45
2020-01-08 13:28