保险行业超融合平台

返回s6dong的回答

s6dongs6dong  it技术咨询顾问 , 东软集团

在超融合平台项目建设中,主要包括以下两大难点问题:超融合平台的信息孤岛问题、超融合平台的性能和管理问题。
一、超融合平台的信息孤岛问题
1.1、产生背景和原因
在医疗行业传统数据中心,每个业务系统建设都是一套硬件设备对应一套应用的建设模式,因此产生了越来越多的“信息孤岛”。随着系统逐步增加,这种烟囱式IT架构的问题逐渐暴露出来,如分散式管理复杂、机房设备多、利用率低等。
超融合平台项目建设的初衷是把这些系统的数据业务打通,在底层形成计算和存储的资源池,针对不同的业务动态提供按需划分的能力。但是,实际上的情况是,医疗用户在部署了超融合系统以后,会出现更多的“信息孤岛”。
在数据中心层面:所有的超融合方案都是分布式存储,也必须是分布式存储,不会支持数据中心中原有传统的集中式存储,而且大多数医疗用户也不可能在短期内更换原有的服务器和存储等设备,最终的结果就是,数据中心被分裂成两个彼此独立分散的“信息孤岛”。
在业务应用层面:目前超融合系统通常仅支持一种或多种虚拟化环境,例如VMware超融合架构仅支持VMware vSphere,不支持KVM。而华为和H3C等超融合方案基本都不支持Hyper-V虚拟化。每种虚拟化环境都有各自的优势,很多情况下用户可能要部署多套超融合环境。还有一点就是不同超融合平台之间无法整合和互操作,举个例子:如果一个医院买了DELLEMC的VxRail超融合平台,那么以后扩容不能再买其他超融合产品进行扩容,只能继续选择VxRail超融合产品,如果选择其他超融合产品进行扩容,结果就是又多了几个新的“信息孤岛”。
1.2、解决方案
在医疗行业客户考虑转向超融合架构之前,必须充分的认识到新架构的变化带来的诸多问题。由于超融合架构是一种全新的架构,短期内不可能完全替代传统的数据中心,所以信息孤岛问题是必然存在的,需要在管理上提升认识,充分考虑现有业务的需求,进行平衡考量,对现有数据中心的老旧设备和新的超融合设备进行统一管理,综合运维。在超融合产品的选择上,要结合现有的业务部署环境、虚拟化环境并结合数据中心的未来发展进行认真考量,不能有以往采购硬件设备时那种以价格优先的选择方法。必须充分对现有业务系统进行调研,需要哪种虚拟化平台,尽量选择支持异构虚拟化的超融合产品,而且超融合产品的选型决定了未来数据中心的发展方向,是走商业化产品路线还是开源产品路线,都需要考虑清楚。如果仅以价格便宜作为优先考虑方案,那么可能会导致适用性差,扩展受限等问题,而且日后可能还会产生更多的信息孤岛。

二、超融合平台的性能和管理问题
2.1、产生背景和原因
超融合架构的优点是易于扩展和部署,按需扩容。通常采用X86硬件平台+软件定义技术实现计算、存储、网络等功能的统一。软件定义屏蔽了以往异构设备的复杂性,实现完全分布式,去中心化,系统不存在任意单点故障。超融合通常3节点起配,并且可以扩容到数十节点。超融合节点中的计算能力、存储性能和容量是同步扩容的,但是却无法满足现实中单项能力的扩展。
在计算性能方面,大部分超融合产品都是基于2U的X86服务器,CPU数量通常为1-2颗,单个虚拟机的性能最大只能达到单个节点的70%(超融合系统本身和分布式存储要占用30%的计算性能),而且不能像超算那样,利用所有节点进行统一计算。在这条件下,高性能应用可能不太适合部署,而且性能会受限于单台节点的性能。
在存储性能方面,在传统存储集中式系统中,由于其物理I/O路径较短,通常为机头控制器后端再挂载磁盘组。而且采用Raid等数据保护算法比基于分布式存储的副本数据保护模式,在计算开销上小很多。在分布式存储中,至少由3台服务器组成,通常使用3副本模式。一个I/O通过网络,需要在多个副本服务器上进行处理,而且每个副本都有数据一致性检查算法,这些操作都将增加I/O的时延。分布式存储系统的数据一致性会引发另外一个性能问题。数据一致性可以理解为应用程序运行的数据状态与最终写入到磁盘中的数据状态是否一致。在数据库等OLTP高并发业务场景下,数据一致性的保障可大大提高系统的可靠性和容错性,避免数据出错。传统存储是集中式缓存管理,集群中所有节点均不维护本地缓存,而是所有节点共享访问一个集中存放的缓存,数据在缓存中只有一份副本,不会出现多份副本,具有天然的缓存一致性。分布式存储因为每个节点都有自己独享的缓存,存在多个副本,需要一个特殊过程来维护缓存一致性。通常需要采用低时延的高速网络来实现缓存协议流量,最终实现任意关联分布式缓存一致性。带来的问题是副本之间的强一致特性导致只要有一个副本响应稍慢,整个I/O的时延将增加,导致性能下降。
为了提升超融合平台的性能,需要不断的增加节点数量。但是节点数量的增加又会导致管理上的问题。集群达到一定规模后,其复杂性就会非线性增加,在管理上变的更加困难,硬件故障率也会大幅度增加,所以并不是超融合系统的群集越大越好。如果为了性能而不断增加群集规模,还会产生均衡问题。因为超融合架构所有的计算和存储资源都是均衡分布的,在扩容或者是节点设备故障时,都会发生计算和存储资源的均衡迁移,虽然这个过程可以设定为非繁忙时段静默完成,但是如果变动很大,那么均衡的过程会非常漫长,在没有足够调整资源的情况下,会触发强制均衡,对正常的业务产生影响。
2.2、解决方案
在计算性能方面,在进行超融合产品部署前,需要根据医院自身业务的性能需求,选择合适的部署方案。例如:对于性能要求较高的大型OLTP数据库服务器,可以考虑单独部署在4路或8路的物理服务器上,不要部署在超融合系统中。超融合系统仅适合部署小型的或者对性能要求不高的数据库。
在存储性能方面,如果需要将传统的集中式存储数据迁移到超融合的分布式存储中,要考虑性能问题。提前做好I/O性能测试,避免性能不足。通常来讲,如果一台中高端存储设备,迁移到超融合系统中,要获取相同性能,至少要有10个以上的节点,而且要配置SSD闪存。在考虑数据迁移之前,传统存储的自动精简配置、快照、克隆、重复数据删除、数据加密和数据压缩等高级特性也需要考虑进去,这些通常是超融合架构的分布式存储所不具备的。
在管理方面,超融合虽然架构简化了IT架构,但是如果不考虑实际需求,盲目扩展,反而会增加数据中心的复杂性。从超融合产品的角度讲,其内部技术和链接配置更加复杂,为了性能不断的增加节点数量,如果出现故障,问题的跟踪调试和分析诊断也变得更加困难。建议在进行超融合架构规划时,不要只设定一个超融合群集,而是要根据业务类型或者性能分别创建不同的超融合群集,而且尽可能的控制单个群集的规模数量。

互联网服务 · 2019-06-24
浏览2007

回答者

s6dong
s6dong1729
it技术咨询顾问东软集团
擅长领域: 存储服务器灾备

s6dong 最近回答过的问题

回答状态

  • 发布时间:2019-06-24
  • 关注会员:2 人
  • 回答浏览:2007
  • X社区推广