slyxtk
作者slyxtk2022-03-18 14:01
系统工程师, 三甲医院

某医院基于超融合架构的应用实践

字数 8455阅读 4903评论 6赞 12

摘要:

某日门诊量7000以上大型三甲综合医院自2017年首次引入超融合架构支撑医疗数字化业务发展,经过近五年对超融合技术的学习以及在医疗信息化场景中的实际应用积累了大量经验。本文重点介绍医院在数据中心生产级环境中超融合架构适合运行哪些应用系统的探索,以及超融合基础架构在性能、容量、及数据安全领域设计规划的思考,可供医院同业用户借鉴参考。

一、建设背景

当前,我国公立医院发展正处于从“信息化”转向“智慧化”的关键节点,智慧医院建设有助于提升三甲医院医疗服务质量和医疗效益,改善就医体验,优化区域资源配置。随着医疗行业信息化建设的不断发展,业务系统对IT基础架构的要求越来越高,如何提升IT基础架构的稳定性、性能与扩展性是IT部门面临的重要挑战,通过将传统架构向超融合的转型,为IT部门应对挑战提供了重要的解决方案。

国内大部分医院自2012年开始,引入以VMware对PC服务器进行虚拟化处理,同时搭配SAN存储共同来构建虚拟化基础架构。从最初的用于支撑医院的边缘化、部门级业务,慢慢过渡到支撑较重要的、全院级业务,包括HIS、PACS、EMR等。

随着虚拟化基础架构上部署的应用越来越多,集中式存储在性能和容量等方面开始出现瓶颈。为了打破竖井式部署导致应用孤岛等问题,医院考虑采用新的 IT 架构,将计算、内存、存储资源通过虚拟化的方式组成资源池以便将资源池按需分配给各种应用。

笔者从2017开始接触超融合架构,并针对相关技术厂商的超融合技术架构、方案和产品做了深度调研,同时也对行业内的超融合应用案例做了大量分析。

与传统架构相比,超融合架构的计算和存储资源可以根据实际需要灵活按需扩展,极大地降低了部署和运维工作难度,因此我院决定开始先在一些非核心应用上采用超融合架构来支撑。

我们在不同的项目建设中分别使用了VMware vSAN超融合和Nutanix超融合一体机。通过使用超融合服务器,极大地减少了服务器的安装上线时间,从而提高了运维的效率,同时也提高了单个机柜的空间利用率。

二、超融合系统应用现状

2.1 基于超融合的数据中心设计概述

我院数据中心超融合系统根据不同项目的需求,采用了分步分批的建设方式,使用扩展能力强,功能丰富的超融合基础架构方案,来满足医院业务系统高可靠性、高可用性、业务连续性、数据安全、数据备份、数据及应用容灾的需求。

目前我院内部数据中心部署有两套超融合架构系统,分别采用了VMware vSAN和Nutanix超融合架构系统,主要用于部署应用服务器。由于数据库库服务器采用了Oracle等数据库群集系统,仍采用传统集中式架构部署。两套架构通过网络和安全设备进行逻辑隔离。

我院在对现有业务系统进行深入调研的基础上,逐个分析各个业务系统的需求和特点,将适合部署到超融合的系统进行统一梳理,然后对业务系统资源进行整合,分别部署到两套超融合系统中。

在管理上,为了实现高度自动化的业务部署和运维,整合后的虚拟化资源通过超融合系统自带的管理软件,计划下一步建设云资源管理平台,进行统一管理,实现对全院所有超融合资源的管理、分配和运维分析等操作。

通过超融合系统的建设,实现了软件定义的数据中心。有效整合服务器、存储和网络等资源,最大效率的利用硬件设备,满足新的医疗信息系统各项业务的性能需要。同时还可以对数据中心硬件设备进行有效管理和监控,降低运维和管理成本。

2.2 基于超融合数据中心的拓扑设计


基于超融合架构的数据中心,在网络上采用扁平化二层网络架构(核心层、接入层),使用网络虚拟化技术,核心交换机承担着核心层和汇聚层的双重任务。

在逻辑上,超融合架构不改变原有医院生产中心网络架构。原有设备网络、服务器、存储和安全等设备可以继续利旧使用。对于超融合设备,需要单独设立一个安全域,并和原有传统架构区域隔离开。同时两个区域又可以互相访问,不影响系统之间必要的正常访问和运行。为了保障内网的数据安全和网络安全,外网用户访问仍需要通过VPN授权才可以访问内网数据,通过DMZ区访问web服务。

超融合架构物理机采用基于英特尔®至强®可扩展处理器的机架服务器,在网络配置方面,每台服务器配置1块2端口的10GE网卡,通过万兆接入交换机和核心交换机进行连接,配置并连接两个千兆网络,一个连接生产网络,一个连接管理网络。在未来,为了最大化的发挥服务器资源,避免内存成本高导致虚拟机内存资源分配不足的情况,我院未来考虑为每台X86机架服务器配置英特尔® 傲腾™持久内存,它可以提供接近DRAM内存的I/O性能,但是大大降低了内存资源的单位价格,能提高两套超融合系统的虚拟机使用率、降低医院总体拥有成本。

两套超融合系统的存储部分采用分布式架构,使用高速缓存+HDD磁盘的模式。缓存和HDD磁盘的比例,VMware vSAN是固定的配置为每磁盘组最大1+7(1块缓存盘+7块容量盘)。Nutanix可以根据数据存储需要进行灵活配置。对于超融合系统的存储,为了更好的管理数据,还需要支持多副本存储、数据本地化、热点数据自动分层。这一点VMware vSAN和Nutanix都可以很好的支持。另外,在系统建设完成后,还需评估数据安全方案,根据需要实现数据在线重删、压缩、快照、克隆、同/异步备份和跨地域远程数据容灾等高级功能。

三、超融合服务器应用实践

3.1 超融合服务器的硬件选型

超融合产品涉及的功能点较多,建议先测试再采购,对产品的各种功能都比较熟悉后,再结合应用系统特点才能选择出最适合的硬件配置。主要功能点体现在如下几个方面:

3.1.1 虚拟化软件选择
一般医院行业VMware虚拟化使用较多,从VMware虚拟化开始使用超融合架构易于上手。Nutanix超融合提供的AHV虚拟化在笔者学习一段时间后,感觉也较容易掌握,建议使用Nutanix超融合的用户直接使用AHV是较好的选择。如果用户只想使用一种虚拟化软件,Nutanix超融合也支持VMware虚拟化的安装部署。

3.1.2 兼容性要求
为了防止在采购硬件时被一家IT厂商绑定,需要超融合产品能适配多个IT硬件厂家的不同型号PC服务器。

3.1.3 磁盘配置要求
3.1.3.1    磁盘配置方案
医院行业信息化一般采用SSD+HDD的超融合混合磁盘部署模式,建议SSD磁盘容量至少为HDD磁盘容量的5%~10%左右。例如:每节点SSD选择1750GB固态盘,HDD选择(2~3块)4TB或SSD选择11.5TB,HDD选择(3~4块)4TB。超融合节点建议至少4节点起配,数据冗余保护机制一般选择2~3副本。

vSAN的采用磁盘组的固定分配方案。每节点最多5个磁盘组,每个磁盘组最大8块硬盘。采用缓存层+容量层的分配模式。但是一个磁盘组缓存层只能有1块盘(纯缓存方案,不参与实际存储),最大配置为缓存层1块+容量层7块。根据VMware建议,一个主机建议按照SAS控制器分配多个磁盘组,以SSD缓存盘+HDD容量盘形式组建磁盘组。

在缓存层SSD磁盘的选择上,并不是所有的SSD都可以用作缓存盘,满足一定的性能要求(例如英特尔® 傲腾™固态盘,具体性能要求详见下表),才可以被用于缓存层SSD。而且在选择缓存磁盘的时候要在VMware的兼容性列表中,否则无法选择SSD盘作为缓存盘。

根据我院实际物理机配置,每台主机分配2个磁盘组,每个磁盘组采用1块态SSD盘+4块HDD SAS磁盘。

SSD采用英特尔®傲腾™固态盘DC P4800X(70/30混合读/写类型),其IOPS可以达到500k,寿命可达164PBW(1.5TB产品),完全可以满足VSAN对缓存层SSD的性能和寿命要求,有利于处理缓存层的大容量、数据密集型和任务关键型工作负载。SSD在缓存层吸收了写入压力,就降低了持续返回容量层的需要,等到所有写入都完成后再返回即可。所有数据都在一段时间内从写入缓存中离台或清空到容量层,从而更有效地使用容量层。

HDD采用4块4TB大容量NL-SAS硬盘,保持缓存层与容量层的占比约10%左右,兼顾性能和成本优势。

Nutanix采用混合模式组建方案,每个节点至少一块SSD+至少一块HDD,并且每个节点的SSD/HDD磁盘数量为2~6块。通常Nutanix一体机提供多种磁盘配置方案,磁盘配置模式为2块SSD+4块HDD,根据HDD容量不同(1TB/2TB/4TB和6TB)配置不同的SSD磁盘存储空间(375GB/750GB/1.5TB)。

Nutanix和vSAN不同的是,Nutanix的SSD磁盘是参与实际数据空间存储的,采用自动数据分层的技术。当虚机写入数据时,优先考虑写入本地SSD(如果SSD已用容量未达到阀值),如果本地SSD满了,会将本地SSD的最冷的数据,迁移到集群中其他节点的SSD,腾出本地SSD的空间,写入数据。当整个集群的SSD已用容量达到阀值(一般是75%),才会将每个节点的SSD数据迁移到该节点的HDD硬盘中。SSD迁移数据到HDD,并非将所有数据全部迁移到HDD,而是对数据进行访问度冷热的排序,并且将访问较少的冷数据优先迁移到HDD硬盘中。如SSD容量达到95%的利用率,则迁移20%的冷数据到HDD;如SSD容量达到80%,则默认迁移15%的冷数据到HDD。

Nutanix这种本地落盘及SSD缓存方案确保了高IO,但是硬盘的带宽得不到保证。Nutanix的解决方案适合用于高IO需求的业务类型,例如部署在超融合上的小型数据库系统,但是大规模的并发读写不太合适。

3.1.3.2   磁盘容量分配
磁盘容量的规划重点是对医院业务的数据类型和数据增长量做好评估。在医院业务系统中,核心HIS系统架构一般为C/S架构,其他非核心系统为B/S架构。

HIS等核心业务系统运行需要2-4台超融合节点(创建虚拟机部署应用服务器)和1-2台物理机(部署数据库服务器双机)。数据库服务器通常采用关系型数据库,并且后端需要挂载集中式存储,所以不会占用超融合系统存储空间。超融合服务器的存储空间分配应根据核心业务系统需求进行分配。由于主数据集中部署在数据库中,应用服务器虚拟机每台分配100GB左右的系统空间即可。

其他非核心系统由于没有大型的数据库系统,可以全部部署在超融合系统中。但是部分非核心业务系统由于数据需要存储在本地,没有集中式存储,需要额外分配存储空间,但是单台虚拟机建议分配空间不要超过单个超融合节点的10%,以免影响其他虚拟机存储空间的分配。

如果在超融合上部署PACS、超声影像系统、病理系统、心电系统、病案系统、电子票据等含有大量图片类非结构化数据的应用系统,需要根据数据增长量,合理规划HDD磁盘空间。根据我院实际业务数据存储量分析如下:

单节点HDD磁盘可用容量不建议超过30TB,以免单节点故障时同步数据时间过长。此类非结构化数据多的应用系统应该规划好在线、近线、长期归档的分级数据存储方式,在线数据可以存放在超融合系统上,但近线、长期归档数据建议存放到NAS或对象存储设备。

3.1.4内存大小选择
由于现在业务系统的内存需求越来越大,按照平均每个节点部署15~20个虚拟机,每个虚拟机配置32GB内存计算,至少需要480GB~640GB内存。而且有些应用初始内存需求可能32GB,但使用二三年后可能会提出内存扩容到64GB或128GB的需求,如果开始配置内存不足,可能导致不能及时满足应用的内存扩容需求。

根据目前医院大部分物理资源使用的情况来看,都是由于内存不足导致的资源枯竭,内存和存储空间还可以分配。由于内存无法跨节点分配,如果单个节点内存分配完毕,即使有额外的计算和存储空间,也无法再分配。为了同时兼顾单节点内存容量和性能投资成本,可以考虑采用英特尔® 傲腾™持久内存,并将其设置为Memory模式进行使用。Memory 模式为传统应用提供了低成本、大容量的内存配置,适用于虚拟化的数据库系统、大数据分析这一类应用;这种访问模式对于上层的操作系统和应用是透明的,应用不需要进行修改。

3.1.5 计算性能选择
超融合服务器的计算处理部分一般选择第二代或第三代英特尔®至强®可扩展处理器。英特尔CPU根据内核数量、扩展性分铜牌、银牌、金牌和铂金四个小系列。可以根据应用系统计算需求进行合理规划,一般选择金牌2路20核或以上的CPU配置。经过VMware和英特尔的结合优化,金牌及以上处理器在缓存,UPI链接数和多线程处理性能上能够满足苛刻的延迟敏感型应用,比如HIS系统等。

按照最佳实践,采用2路处理器能获得更好的节点冗余性和配置性价比。每节点可以配置2颗英特尔 X86处理器提供给超融合服务器使用,根据业务资源规划,配置合适的节点数量。根据平均单个虚拟机配置不少于4vCpu计算,单节点负载15~20个虚拟机计算,单节点vCpu需要达到80个vCpu。按照超线程计算,需要配置40个处理器核心,每个处理器需要配置20核心。

3.1.6集中化运维管理需求
基于英特尔®至强®可扩展处理器的X86架构超融合服务器融合了计算、存储、网络,替代传统架构下的服务器及中高端光纤共享存储的垂直架构,使整体架构扁平化,根据业务处理要求,按需灵活水平扩展。医疗行业一般单个集群的节点数量不超过20台,可能一个机房会有多个超融合服务器集群,或者不同院区之间有多套超融合集群,就需要配置超融合系统的集中化统一运维管理功能,支持不同集群之间的虚拟机在线迁移,形成全院一体化的基础资源共享池,方便运维工程师灵活地管理和调度超融合服务器的资源满足应用的需求。

3.1.7 维保支持能力
超融合服务器的品牌选择,不光要看硬件的配置和价格,还要看厂商的售后服务支持能力。厂商的服务支持能力主要体现在现场安装的支持,服务器硬件故障时配件的及时更换支持,定期的巡检维护支持,超融合服务器的软件版本小补丁安装和大版本升级支持,有问题时一线二线工程师的及时响应,现场和远程处理支持。

3.2 超融合服务器维护常见问题

3.2.1 磁盘容量不足
这类问题常见于前期超融合服务器没有PACS、超声影像类的图片类应用规划,后期才有此类应用部署需求,或者由于医院业务增长量较快,新购了一些影像检查设备,导致图片类数据量快速增长,现有超融合系统的磁盘容量逐渐不能满足需求。建议应用系统采用分级存储的方式处理,3-6个月的在线数据放超融合服务器,三年内的近线数据放NAS或对象存储,长期归档数据放对象存储。如果遇到磁盘容量不足且需紧急处理时,可考虑挂载NAS存储空间到虚拟服务器上,支持业务的稳定运行。

3.2.2 磁盘性能不足
此类问题常见于超融合服务器集群安装的虚拟机较多,基本上每个节点的CPU和内存资源都消耗较大,特别是集群的总内存资源使用超过90%时。建议考虑扩容超融合服务器节点或把遇到性能问题的虚拟机迁移到其它资源较冗余的虚拟化集群。如果暂时只能在现有超融合集群里处理此类问题,可以查看每个单节点服务器的CPU、内存、磁盘IO资源消耗情况,把有磁盘性能问题的虚拟服务器迁移到资源相对使用率低的节点,把对性能要求低的虚拟服务器迁移到资源使用率较高的节点。

3.2.3 IP地址容量不足
超融合服务器安装需求IP地址较多,需要预留足够的IP地址,方便以后的扩容和管理需要。

3.2.4 超融合服务器的扩容
扩容前应做好规划,梳理现有虚拟机运行情况,预估新业务的资源需求,和厂商售前沟通好扩容节点的硬件配置。建议单节点的HDD的磁盘可用容量和原有节点不要相差过大,保持整个集群的单节点磁盘容量比较均衡。扩容节点数量不多,扩容时间和原有采购节点相隔不长,软件版本兼容新硬件时可在原有集群扩容。如果扩容节点数量多于原有超融合节点数量或软件版本不兼容时,建议扩容节点单独建立集群。

3.2.5 虚拟机备份
现在业务系统的数据安全要求越来越高,医疗行业大多部署有物理服务器,传统SAN架构存储共享的虚拟化,新的超融合架构。存在几个厂家的超融合同时都有使用的情况,例如有VMware、Nutanix等超融合系统。此时选择一款简单、可靠、支持多种环境的备份软件厂家非常重要。需要支持的备份还原场景有物理机备份转为虚拟机,VMware、Nutanix虚拟机的备份可以互相转换还原到对方的虚拟机集群或超融合集群环境,有支持各种常用数据库的备份方案,有支持NAS数据保护的方案。

3.3 超融合服务器安装部署常见问题

三甲医院机房资源非常珍贵,因此在服务器安装和管理方面需要尽可能的经济、高效。避免机房环境问题导致的服务器停机。

3.3.1 安装机柜选择
由于超融合服务器一般至少4节点起配,在单个机柜里安装密度较大,散热较多,会形成机房里的局部温度热点。所以安装前一定要选择机房里制冷效果好、离精密空调冷风道近的机柜,还要考虑到以后的扩容需求,要预留2-3个临近的空余机柜保留给以后扩容使用。

3.3.2 用电安全
超融合服务器标配双电源,建议机房能使用双路市电和双UPS供电,使超融合服务器的两个电源接到不同的市电供电和UPS设备上,保证超融合服务器使用后的稳定运行。

确认机房UPS或电路恢复正常后才能再次一台台打开服务器电源,开机时通过KVM显示器监控每台服务器的启动运行情况,遇到有问题的节点可能需要再次重现启动服务器。在大多数节点正常开机后可以登录超融合管理台查看集群有无报错信息,如无其它报错,可以慢慢打开虚拟服务器电源,查看虚拟机能否正常启动到登录界面。如有其它报错需及时报修联系厂家工程师现场或远程处理问题。

3.3.3 机房精密空调使用
机房空调必须冗余配备,建议至少2台主空调1台备用空调。因医院发生过机房空调故障,最先受影响的就是超融合服务器,由于安装密度大,空调故障后,机柜附近温度过高导致超融合服务器自动停机。

此类故障要先恢复机房精密空调的工作,待机房温度达到正常范围时,可以重新打开超融合服务器电源。由于此类故障时超融合集群内的节点一般不是同时停机,会发生已停机节点的虚拟机往未停机节点进行自动迁移的现象,有时虚拟机迁移没有完成时,迁移的目标节点也发生了停机,会导致超融合服务器重新开机后,虚拟机无法正常启动的情况,需要及时联系厂家工程师进行现场或远程紧急处理。

3.3.4 布线施工要求
由于超融合服务器安装密度高,单台服务器一般同时连接有2根光纤数据跳线、1根双绞线管理跳线,加上2根电源线。线缆较多,机柜的布线施工要求较高,需要提前规划好。各种线缆的标签一定要在安装时就粘贴到位,否则后期想补贴标签难度很大。如果无详细标签,以后故障查找原因时更是非常困难。

四、超融合应用探索效果

医疗行业一般把业务分为稳态和敏态两类。稳态业务一般包括HIS、EMR、LIS、PACS、集成平台、大数据中心等,稳态业务一般使用传统PC服务器+SAN共享存储方式部署。敏态业务一般为“互联网+”医疗创新业务,提升患者就医体验、惠民服务类,如医院微信公众号、预约叫号、线上问诊、远程医疗、临床决策支持等。这些业务的开展成为医院信息化发展的重要方向,而无论是临床相关应用还是互联网业务,敏态业务的建设都需要有灵活、高效、弹性的底层平台支撑,超融合服务器架构也就成为了这类应用的首选。医疗行业使用超融合解决方案在系统敏捷性、稳定性、灵活性和可扩展性方面均具有很大优势,帮助医院降低了30% 以上的运维人力支出。

五、总结

超融合系统是面向一下代数据中心的基础架构解决方案,全面集成虚拟化和分布式存储软件,是医疗行业部署云环境的最佳基础架构解决方案,也是部署云平台最简单和快捷的方式,是对以往医疗行业数据中心系统架构的全新升级。

现在部分医院信息化建设还在采用传统物理架构与虚拟化技术相结合的方式来构建数据中心,已经逐渐暴露出无法满足日益增长的业务量需求的趋势。为了患者方便就医,提高服务质量、工作效率,以及患者满意度,同时加强患者及公众对医院信任与支持,创建和维护和谐医患关系。需要进一步促进业务和信息资源的整合,提高信息资源的利用率,降低医院信息化总体运维成本。降低网络、服务器与存储系统等信息系统基础设施的管理复杂度,提高应用信息系统部署的时效性,超融合技术的运用势在必行。

目前各大厂商的医疗行业的超融合解决方案大部分都是基于英特尔®至强®可扩展处理器进行的方案设计,集成了计算虚拟化、网络虚拟化、存储虚拟化、安全虚拟化、运维监控管理等技术,利用高速网络聚合多套超融合设备,形成统一的计算与存储资源池。如果再配合傲腾™技术平台(包括持久内存和固态盘),更能发挥出基于英特尔®至强®可扩展处理器的超融合能力。

超融合架构部署实施周期较短,可以显著的提高硬件资源的利用率,能够为医院众多的业务系统提供稳定高效的运行平台。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

12

添加新评论6 条评论

erichanerichan技术支持, 东华软件股份公司
2022-04-19 11:42
这个方案值得借鉴,给作者点个赞
erichanerichan技术支持, 东华软件股份公司
2022-04-19 11:42
这个方案值得借鉴,给作者点个赞
匿名用户
2022-03-31 06:14
写的非常棒,容灾我看没描述,这块咋考虑的呢?
study123study123系统架构师, ERICSSON
2022-03-23 16:57
该文写的很详细,很实用,难得的干货分享! 感谢作者的分享!
arzee86arzee86工程师, 暨南大学
2022-03-22 20:28
该文从超融合建设实践出发,对硬件、运维等多重角度展开,给未来新建、扩容等方面提供重要指导经验。其中PACS存储涉及存储文件格式,要考虑扩容、节点维护等因素,且其空间特别大,因此PACS是否适合部署于超融合要结合医院实际进行衡量,尤其考虑其硬盘格式大小。
yl989yl989数据库系统工程师, 天水市
2022-03-22 15:38
这篇文章写的很实用,很详细,对我们今后的工作也有一定的指导性,感谢作者。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

超融合选型优先顺序调查

发表您的选型观点,参与即得50金币。