PDH
作者PDH·2018-12-09 16:25
研发工程师·某地铁

地铁行业如何实现Power服务器虚拟化高可用架构设计?

字数 5677阅读 4569评论 1赞 2

1. Power 服务器虚拟化高可用资源池实现的必要性?

Q1: 目前地铁行业采用小机虚拟化还是使用x86架构虚拟化更适用?
Best Anwer: X86和Power小机的虚拟化各有特色,之所以觉得X86的虚拟化应用更广、成熟度更高,是因为前端业务层面更适合做虚拟化部署,因为横向扩展的和变更的需求更多。在企业核心的数据库和重要业务层面,Power的虚拟化应用案例也是很多的。小机的虚拟化,从安全性、成熟度和高可用性的功能设计上也是非常好的,尤其是适合轨道交通行业的重要业务,如AFC、ISCS的线路和中心级使用。在统一管理的问题上,可以部署PowerVC这样的统一管理云环境,它可以和X86的虚拟化环境集成在一起,同样是OpenStack的架构,给客户展现的就是统一的云管理平台。

Q2: 如何看待地铁搭建生产系统云平台的必要性?
Best Anwer: 目前各设计院积极推广云平台建设,国内地铁公司也陆续进行私有云试点,部分城市已经开始搭建生产系统云平台,将通信、综合监控、AFC、PIS、ACS、ATS等众多系统专业服务器合设,搭建云平台,以各位专家的意见,此类云平台搭建会是昙花一现还是成为未来地铁标配?个人认为,能否成为标配还有待检验,目前只是在部分相对没那么重要的系统进行尝试,部分应用系统(比如通信、信号)目前来看其实并不太具备上云的条件,是否需要一定要为了建设而建设?这是决策者们需要考虑的问题,毕竟生产系统是安全稳定为第一位。从管理的角度讲,搭建云平台可以整体管理那些原来需要分开管理的IT资源,并且做到灵活调度,对于统一管理还是非常有必要的。过往由于厂家之间设备和管理终端的差异性,在统一界面进行统一标准的管理基本难以实现,现在随着架构的改进,以OpenStack为例的云管平台逐渐统一了各基础设施厂家的管理方式,为统一管理提供了可能性。已经见到有地铁的用户在探讨和进行技术储备,相信这种统一管理的模式是会成为未来的趋势的。

Q3: 云平台为什么不能集中管理小机,目前数据库还是采用小机运行,那么这样就需要x86与小机共同存在?
Best Anwer: 现在数据库还是运行在power系统上,web系统是运行在x86上的。云管产品可以集中管理这两类的机器。现在云管管理x86比较简单,而云管对接power有两种思路,一种是对接Powervc,一种是对接hmc.。

Q4: 地铁中云计算主要的目的
Best Anwer: 地铁行业中,目前看到的探讨云计算主要初衷是为了统一管理、便捷调度和降低成本,这也正式云环境给用户带来的核心益处。目前已知一些研究院和最终用户在探讨云环境使用的可行性。

Q5: 请教服务器虚拟化实施建议?
Best Anwer: 任何从既有的传统环境变更为虚拟化甚至是未来的云环境,都需要一个知识学习和知识消化的过程,但随着技术的发展和演进,这种过程又是必须进行的。议在项目之前,提前进行相关知识和实际使用的学习和测试,确认这些新的功能和业务的需求真的匹配。在实施过程中尽量进行充分的介入并留存好相关的实施文档,同时进行一些后期运维材料的提前准备,如运维手册、切换手册等。在业务很小的前提下,虚拟化应该不是必须的,但随着后期线路和节点的增加,虚拟化管理的优势会越来越明显。

Q6: 用小型机来做虚拟化,主要的优势是什么?
Best Anwer: 没有一个中立机构宣称小型机就比X86稳定,至少我没有看到类似的对比数据,因为这是两种完全不同的体系架构。但在是2018年的今天,通用X86服务器经过数十年的验证与更迭,具备标准和通用性,稳定性与可靠性已被业界认可。哪怕是小型机用户也都在尝试,或计划尝试把核心业务转移到X86。但是无需争议的是:传统X86部署更便捷,扩展更方便,而且具备无与伦比的开放性,这其中就涵盖了节约成本等潜在的效益。而这些都是你所关心的。补充一句:IT基础设施的可靠性与业务连续性不是依赖于某一个组件,或某种特征的设备来实现的,需要的是一套完善的体系架构。

Q7: 虚拟化技术在地铁领域有哪些应用?
Best Anwer: 在地铁行业,一些用户已经在探讨虚拟化的应用场景,如AFC,ISCS等业务的虚拟化合并,车站业务的统一虚拟化监管和调度等。

Q8: 虚拟化到底能够节省多少系统建设成本?
Best Anwer: 从用户的实践角度来看,积累云和虚拟化的经验和真正使用虚拟化部署到生产环境中,确实是需要一个基础学习和储备的过程。但这个过程度过后,虚拟化的便捷性确实可以节省用户的管理成本。另外,除去管理成本,虚拟化对成本的节省还可以体现在2个方面:1,虚拟化后对资源的利用率提升了,如原本24核的机器,受物理条件所限支持2个分区,但实际处理器并未用满,虚拟化后可以支持更多的分区共享使用,使处理器、内存的利用率提高了。从另一个角度看,新加进来的分区的投资就节省了。2,虚拟化使网卡、光纤卡等资源可以复用,节约了物理板卡的使用量,相应的机房空间和电力的节省也是很明显的。

2. Power 服务器虚拟化高可用资源池实现的思路及方法?

Q1: Power服务器虚拟化高可用对操作系统有什么要求?能否建立在Power的Linux之上?
Best Anwer: Power服务器的虚拟化各种功能是PowerVM提供的,PowerVM是在HyperVisor层面的,是在操作系统之下的。在PowerVM虚拟出的虚机上,是可以运行AIX,Linux等不同的操作系统的。

Q2: 选择虚拟化或云管理平台的策略?
Best Anwer: Iaas层的云管平台,目前OpenStack确实在架构上是主流架构,但开源平台在产品支持和成熟度上离生产应用也确实有距离。正因为如此,众多的基于OpenStack架构的多个厂家的商用云平台版本才匹配了这样的矛盾。在Power上PowerVC云平台就是这样的解决方案,PowerVC是基于OpenStack的成熟云管平台,在不少客户都有装机案例。而且还会随着OpenStack定期的更新版本而同步更新。在使用体验上,PowerVC也对OpenStack进行了极大的改进,无论在安装部署,还是在后期使用过程中,都做了很多优化,更加便于用户使用。

Q3: 谈谈超融合架构?
Best Anwer: 超融合架构的核心是深入的虚拟化应用和分布式存储环境。目的是解决数据的本地化处理问题从而提升处理效率,同时还可以简化运维管理,在线性扩展方面和传统存储架构相比也有比较明显的优势。超融合近几年突然异军突起,被大家广泛提及和研究,是因为相关的技术逐渐成熟:
1,分布式存储软件和算法的逐步完善大大提升了数据块的调度效率,使横向扩展和数据自动负载均衡得以在生产中稳定使用。
2,SSD盘的技术逐渐成熟,使分布式存储的响应时效可以适应更多的业务需求,从而避免了以前的分布式存储响应时效不行的问题。
3,虚拟化技术的发展,使虚机访问本地化的数据成为可能,且主流的超融合厂商支持的虚拟化技术越来约完善。
但从另一个角度看,超融合目前还不适合大型企业的核心负载,对过重的负载也暂时不适合。另外,即使是可以横向线性扩展,但需要考虑架构计算和存储能力均衡增长的问题。

Q4: 虚拟化选型应注意哪些问题?
Best Anwer: 小型机的PowerVM和X86的VMWare在实际应用中,是处在客户的不同业务层面。PowerVM虚拟化是一个非常成熟的技术。对于用户而言,成熟稳定在核心业务中的意义是不言而喻的。PowerVM的功能也非常丰富。小型机的虚拟化,在虚拟机部署过程中的高可用设计、后端存储访问的高可用设计、虚机业务在不停机情况下在线迁移的设计等功能上,以及和企业容灾的配合中,都有非常完善的设计。可以提供给用户强有力的业务连续性保障。从用户实践角度看,虚拟化选型可以从两个角度考虑。如果是用于和业务直接相关的生产和准生产环境,技术的成熟度和稳定性是首要考虑的。如果是开发测试等环境,大家则更注重虚拟化管理的灵活性和批量部署等大量解放管理员人力的功能。

Q5: 地铁AFC行业中如何应用虚拟化?
Best Anwer: 以传统AFC系统架构及数据量,一般只有数据库服务器使用小型机,小型机采用双机热备或双活已经足够使用,单条LC大概有10台X86服务器,可以将X86服务器虚拟化,但是单条线路X86服务器虚拟化量大少,成本反而高,折腾。可以各线路LC合并,搞多线路中央计算机(MLC),或直接将各线路LC和ACC合并,搞数据管理中心(DMC),这样差不多10台高配X86服务器或小型机虚拟化就够了。同时每站SC一般采用X86服务器,这个也可以整合,所有SC合并后使用虚拟化构建资源池,也可以SC、LC、ACC合并,组建AFC系统生产系统云平台,作单系统的生产系统云平台。考虑到我们亲爱的综合监控、门禁、BAS、PIS、ATS等众多兄弟,索性一起搞云平台吧。但是还是要考虑,我们是否真的需要私有云,我们的目的是什么,每个城市有各自的特色,还有政府自建、PPP、BT等多种建设模式,选择适合自己的才是最好的。

3. Power 服务器虚拟化高可用资源池实现的关键问题?

Q1: 资源池的高可用和高稳定性如何去保障?
Best Anwer: 核心系统采用资源池部署,在一些IT比较前沿的行业已经有了不少案例,如银行和金融等行业。将最核心的业务部署在企业级高端资源池架构上,并在资源池内通过物理和逻辑的高可用设计来保证高可用性,完全能够满足企业的核心业务的需求。通过企业级设备本身的稳定性、业务间的实时监控和动态切换能力,可以保证业务的计划外停机时间在一个非常小的范围内。而这些高可用的自动化管理,其实也降低了故障时人工判断并应对的难度。

Q2: 云平台维护过程中有什么更好的故障应急处措施?
Best Anwer: 这个应该在做架构设计时进行考虑,一定要做到任何一台服务器故障,都不影响系统的使用。这样才可以出现故障场景时,从容的进行硬件维修及更换。这些可以靠一些远程技术去实现,在Power虚拟化中可以通过remote restart功能远程实现虚拟服务器重启。

Q3: 为什么虚拟化高可用只能建立在共享存储上?
Best Anwer: 主要原因有四个:1. 虚拟化的松散耦合方式,CPU、内存、板卡等脱离物理主机限制。2.物理主机指提供计算资源。所有的存储资源都位于共享存储。3. 物理主机故障、虚拟主机迁移至其他物理主机,一般不会造成数据丢失。4. 如果数据存放在某一台物理主机,这台主z机故障,其他主机无法访问这台主机的数据。

Q4: 云平台搭建过程中需要注意哪些问题?( 需要300-500台虚拟机,每天虚拟机下面链接有30-50台终端设备,每天一台虚假机需要满足15万的交易数量 )
Best Anwer: 这个问题需要立足于以下信息的明确:5万的交易数量 时序分布式如何的, 最高秒级交易是多少, 如果设计系统必须有详细的要求, 秒级交易,带宽,交易日志等的量你都要发出来,另外300-500个vm跨度1倍的,30到50台终端,如何连接等等,这些问题的清晰意味着答案的明确。

Q5: 旧系统如何迁移到虚拟化?
Best Anwer: 虚拟化的软件是具有一定的兼容性要求的,通常各种软件都会有兼容的列表,可以提示用户哪些产品在哪些版本之后可以兼容。过于陈旧的系统,可能会由于兼容性的问题无法直接与新系统对接迁移。通常在新旧系统迁移时,还是需要有一次的业务中断的。

Q6: 大并发情况下,软硬件资源如何自动均衡,以避免业务不中断?
Best Anwer: 可以通过前端软件或硬件的负载均衡算法将业务分发到后端集群中的不同的服务器中,首先保障分发层面的自动均衡。后端数据库服务器可以集群部署,无论是商业数据库ORACLE RAC、DB2 Purescale 或者开源分布式数据库,都有多个节点保障数据库的连续性,当单个节点故障时只是降低处理总能力,并不会中断服务。当节点修复后可以根据策略加入到集群中。

4. Power 服务器虚拟化高可用资源池的有效运维管理?

Q1: 云平台维护人员需要掌握哪些先进技术?
Best Anwer: 操作系统AIX LINUX,平台 openstack k8s,网络 sdn vlan vxlan,脚本python shell,存储 集中式存储、分布式存储。

Q2: 云平台为什么不能集中管理小机?
Best Anwer: 现在数据库还是运行在power系统上,web系统是运行在x86上的。云管产品可以集中管理这两类的机器。现在云管管理x86比较简单,而云管对接power有两种思路,一种是对接Powervc,一种是对接hmc.。

Q3: 地铁行业生产环境下使用PowerVM,在高可用性方面需要注意哪些方面的配置?
Best Anwer: 1、简单来说,先进行系统规划。重点是网络、存储方面的冗余规划。2、一般采用双VIOS的方式,保证板卡的冗余。3、PowerVM的共享存储,没有VMware迁移方便。需要多加关注。通俗一点说呢,例如:1、两个VIO Server;2、每个业务系统的两个主备的虚拟机分布在两台物理服务器上。;3、每个VIO Server使用网卡etherchannl;4、存储使用多个HBA,多路径。

5. Power 服务器虚拟化高可用资源池的容灾?

Q1: 云平台异地灾备可以分为多少种类?
Best Anwer: 通常异地灾备这个概念可以这样理解:从空间上看,可以考虑同城双中心,异地再有一个第三中心。同城双中心之间数据通过高速交换网络保持实时同步,达到数据双活的能力。异地第三中心,和生产中心之间,由于线路的带宽和成本问题,可以考虑有一定时间差的异步复制,如时间差10分钟等。从功能上看,同城双中心之间,可以做一些功能性的划分,如生产和查询的划分,或不同业务分散在两个中心提供服务。而异地第三中心,则可以适当承载一些开发测试的功能。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论1 条评论

wuwenpinwuwenpin软件开发工程师南京
2018-12-09 17:04
不错,学习了。
Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

相关文章

相关问题

相关资料

X社区推广