平台人生
作者平台人生·2017-02-20 18:07
软件开发工程师·平台人生

云计算环境下的运维管理实践(中)

字数 2328阅读 5080评论 0赞 0

云环境下管理的关键领域实践

容量管理

容量管理分为容量优化和容量规划,前者关注优化资源配置,提高现有资源利用率。发现并回收低效、未使用的容量,以便合理调整虚拟机大小、回收闲置资源,在不影响性能的情况下优化整合率和虚拟机密度。后者关注容量不足和超额配置情况,以提前规划资源扩容,指导采购,并规避资源风险。

容量优化

在企业A,计算资源的需求是由业务或应用开发部门提出的,这种资源的请求一般都会高于实际运行需求,包括资源规格和使用时间两个纬度,都会超出实际需要,这类问题主要是由于业务部门主观上站在自身的角度出于规避风险及方便自身使用,客观上也存在缺少精准估算手段等多重原因导致的,但如果没有一个有效的持续优化机制,长期积累下这类问题就会变的很突出,如下图所示,我们通过专业的评估工具可以看到企业A内部资源的闲置情况相当惊人,而作为资源池的主要管理者由于并不了解业务运行情况往往难以进行有效的主动管理,另外即便针对某类系统进行了容量优化,较高的管理沟通成本也阻碍了这种经验的推广,而且较长的响应周期也难以满足当前云资源池快速响应的特性。针对这类情况企业需要建立专门的资源回收机制,以工具为输入手段,形成相关常态管理制度和流程。

经过认真分析这类资源的闲置一般分成两大类,一类是闲置的虚拟机,用户申请完资源后并没有按计划使用或者使用频度非常低,如下图所示该用户环境中有31%的服务器长期处于资源利用率都非常低的情况。

进一步展开可以看到CPU的闲置时间超过99%。针对这类服务器建议启动主动的回收机制。

还有一类是属于资源利用率不高,如下图所示,通常关键资源的使用少于50%,这类一般是在创建初期配置了较高的资源,但根据长期运行统计数据来看,并不需要如此高的配置,所以可以与业务或应用部门沟通进行适当的减配,如将第一行列出的虚拟机,原有的2vCPU配置减少至一个vCPU的配置,即使采用了所建议的减配配置,资源消耗也不会超出53%。

容量的减配不仅仅体现在节省资源上,还对系统性能有至关重要的影响,根据虚拟机的调度机制,多台虚拟机在竞争主机CPU资源时,必需抢到足够的CPU内核,配置越高需要抢到的内核越多,如果这台服务器上运行的虚拟机都是高出正常配置的话,必然导致资源竞争的加剧,反而可能损失了更多的可运行时间,这也出现了一些奇怪的现象,CPU占用并不高,但明显虚拟机系统运行较慢,但一般这类问题比较隐蔽,不通过深入的分析,使用者较难发现,这个时候用户需要关注查验CPU竞争值参数。
除了虚拟机级的调整外,在主机级别也建议采用动态的虚拟比来合理调配服务器的VM:HOST比例,在用户实际环境中服务器本身的负载和VM的资源消耗是个复杂的动态过程,通常情况下,由于缺乏自动化的评估手段,往往采用某个全局的静态虚拟比经验值,企业A就采用了一个经验值1:8,经过仔细分析发现,有部分环境资源的使用效率并不高,属于比较保守的情况,由于每个系统都有其个性化的运行特征,简单的依据这个值进行配比无法反映系统资源的最佳平衡状态。如下图所示,需要借助一些专业工具对密度比进行动态计算来指导虚拟机的合理分布。

考虑到容量管理是个需要持续改进的过程,项目组决定在现有工作流程中针对容量资源的优化使用形成一套比较长期工作机制,并列入当前的工作管理规范。

容量规划

容量规划是用于评估企业增加扩展资源时如何有效的评估需求,当前企业A在这块并没有形成有效的统合的工作机制,主要由各项目组规划申报各自的资源需求,由新的资源需求为主形成新的采购需求,这种策略并没有充分考虑存量资源的情况,对于非项目提前申报未列入采购计划的资源请求,管理员只能从现有资源里分配,所以管理员也会定期根据经验对资源采购计划进行修正,加入依据经验分析对资源采购进行指导,甚至出现资源不足,只能拒绝业务需求或走较长的采购周期以满足需求。经过分析发现这种工作模式存在以下弊端:

  1. 资源池并没有通盘考虑,还是以项目条线需求为依据形成新的采购需求,并没有对资源形成有效的整合考虑;
  2. 对资源瓶颈的风险预见能力不足,对于资源需求无法及时满足资源需求,可能导致较长的供给周期,或者业务组需要较长的资源规划,而且这种资源规划必不可少会留有充足的资源预留,即提前预支资源,宁可资源闲置也不愿出现资源紧缺再走复杂的操作流程,导致资源采购必然大于实际需求;
  3. 对于紧急性临时性需求响应较差,但从业务变革来看越来越多的项目是为快速响应业务出现的,这种类型的需求将成为常态,而且这也正是云计算的优势所在。

这种问题之所以出现,是因为在传统模式下系统部门其实并不是资源规划的主体,而是执行者,但在云时代,资源由原来的各条线规划,转化为集约化管理后,这种模式已不再适用,系统管理员或资源池的管理者应承担资源规划的的主体角色,对整体资源进行统筹规划,要满足统筹规划的需求,就给当前容量的管理提出新的需求,容量的管理者必须能够分析当前资源池和各类资源需求的匹配程度,并能从时间和需求量两个纬度分析资源的需求情况,主动合理规划资源池容量扩充计划,一方面充分利用存量资源,一方面规避容量瓶颈风险。
在本次项目中企业A制定了如下容量规划的工作机制,并确立了由系统管理部门作为资源池容量管理主体,统筹容量规划工作。

如下图所示项目组借助数学模型对收集的数据和使用情况进行趋势分析来评估资源可用时间和余量。

以下为一台具体计算环境的容量使用情况,目前可以看到该台服务器的磁盘空间处于接近耗尽的情况,其它类型资源如CPU,内存还有较多的富余。

增加多少磁盘空间比较合理,可以进一步评估,如下图所示显示了两种类型的方案,一种是增加磁盘资源,一种是移除部分虚拟机,下图显示了两种类型操作对容量评估的影响。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

作者其他文章

相关文章

相关问题

相关资料

X社区推广