任杰
作者任杰2023-03-07 17:46
资深云服务经理, x云

云基数设施服务运营六大痛点

字数 3094阅读 1351评论 0赞 4

随着近几年人们对云计算的认可,云基础设施已从建设期,逐步过渡到运维期。

为应对不断变化的企业外部环境,提升数字化水平,数字化转型逐渐被更多企业采纳,并应用新的云技术来降低企业成本,提高内部运营效率。云基础设施作为应用的载体,展现出与传统运维相近的方面,但是也有其差异性。

本文将对云基础设施服务运营过程中的六大痛点进行阐述。

综述

云基础设施服务同样适用 ITIL 相关理论及最佳实践。随着新技术的发展变化,运维服务不断融入新的内容,如:敏捷、 DevOps 等,并在具体环境中选择性剪裁需要的模块。可以说,只有选择适合自己的运维模式,才是最佳实践,但在这过程中需要不断优化整合步骤及流程。

总体来看, ITIL 涉及的模块有:战略与规划、服务设计、数字化开发与发布、服务交付管理、运维管理、资源管理等。

痛点 1 设备管理

虽然云数据中心,不像制造业工厂有明显的原料、生产、产成品、库房管理等环节,很多都是无形看不到的资产信息,如:软件、授权、操作系统。但此类设备的管理依然会制约并影响最终产品的客户体验。

问题 1 如何平衡采购到货周期与设备使用

设备采购一般会与提供商建立稳固的合作关系。这样,针对标准化设备,到货时间相对少,但部分关键部件及特种设备采购时间将会大大增加,有时候会因原料缺少导致长达一个月设备交付延迟。因此,面对客户不断增加的资源需求与无法快速扩容的情况产生矛盾。因此如何平衡此类矛盾将直接影响资源交付及时性及客户体验。针对此类情况:

首先应明确各类设备采购周期,并实时跟踪常用设备采购周期情况;

其次,做好客户需求调研,尽可能提前预知客户需求;

最后,根据经验确认平台扩容、增加设备预警线(需要预留在用业务日常增长量、少量业务增加需求量),提前发起采购流程。

问题 2 在库在用设备管理

随着设备不断增加,设备管理问题将逐步显现出来,特别是出现一些变更情况,会触发设备信息变化。针对此类情况:

首先,制定设备管理相关的制度管理规范(含库房管理、设备上架信息等),形成闭环管理;

其次,安排专人对设备进行管理;

最后,做好设备变化信息更新(如: ip 、位置、型号、变更情况)。

特点 1. 设备管理周期基本情况

平台初建期 - 中期运维期 - 中期扩容 - 后续平台结束及收尾

设备数量会经历平台初建时期的大量采购,平台建成后一段时间的稳定运行,资源,平台扩容的设备再次增长期,业务平稳运行后设备采购减少。

小特点:维保期内与维保过保后管理差异,需要特别关注过保设备管理。

特点 2. 云环境下设备情况

设备弹性扩容,会指数增加,对平台设备需求指数增加;大规模环境下资源的标准化。

传统模式情况下会对总的使用量及后期扩展进行评估,并可保证在初次建设后后续几年的使用需求。更多的是单租户。

云环境下,涉及多租户管理,资源使用及增加更会出现不确定性,需要维护一定的空闲可用资源。

痛点 2 客户、运维人员、公司内部三方关系平衡

云基础设施服务作为云计算的底座,是承载业务的平台,关联到客户、运维管理人员、运维人员所属公司。

客户方有相关的管理制度,公司方也对应有相应的管理制度,运维人员作为中间的纽带,如何平衡两方之间的制度,将很大程度上影响各自的满意度情况。

如:客户紧急需求与己方制度冲突:客户因业务变化会出现紧急需求,面对如此情况,需要考验运维管理者临场的应变能力,需要综合整个平台的情况,做出最优的选择,并在后续尽可能的做好优化。

痛点 3 资源优化与服务价值减少矛盾

随着更多的企业上云,部分企业已经经历了上云的过程,随着上云业务的减少,云上业务逐步走向优化阶段。

一开始客户认为云上资源与实体机有差异,在上云的阶段更多的申请了资源使用,随着后续业务的正常使用,逐渐暴露出资源申请过量。而服务商的利益是更多希望使用资源,获得云资源费用。作为云基础设施的初衷,是用来充分使用资源利用资源,因此面对此矛盾,我们应通过技术等手段不断优化为客户提供合理配置资源建议,将有效的资源配置到更为有用的地方。另外,为平衡已方收益情况,可通过提供优化资源的服务,或提供其他服务甚至优化方案来补足收益差异,如此,即可满足不断优化客户业务的情况,也满足了企业对利润的需求。

与此同时,企业需要不断地去创新,找到更为优化的方案,更为出众的产品。

随着企业业务的扩展,更多的企业采用了多云的模式,企业 IT 架构也在不断的进行扩展。同样专有云与公有云各有特点,需要我们利用各自的特点,对自有业务进行合理分配,优化成本的同时对业务进行合理布局。

痛点 4 问题处理

多租户环境特别是多云环境下,涉及多方网络交互,除去一开始平台整体的标准化部署后,后续业务交叉,需要更多的网络配置,因此在问题排查过程中更加复杂。面对问题,尤其需要多方配合,特别是在排查中,应能总结出己方问题自证的情况。

另外,成熟的平台下,问题场景更加固化,可总结问题处理方式,使用标准的问题处理方式加快问题处理。

针对问题一般处理方式,可以使用如下五步法:


要想做好问题排查,运维人员不仅仅应熟悉单纯的网路或者系统知识,应多方面对知识进行总结归纳,并通过逻辑思维对确定的问题拆分,逐步分析原因,进行排查,快速找到问题的原因。

痛点 5 平台建设期与运维期差异

随着云基础设施的发展,基础设备不断标准化,平台部署阶段都是标准化的实施过程,该时期比较短,在建设后期,业务上云初始阶段需要业务与平台的磨合,并不断进行优化。

进入运维期后,随着业务的不断增加,平台重要等级不断升级,并随着与客户业务的交互,客户粘性逐渐增加。客户、运维人员、已方互相关联,形成一个统一体。因此,面对此阶段的运维管理特点,我们应该更加深入的了解客户业务,并给到客户不断优化的解决方案,一方面,可以获得客户对平台使用的认可;另一方面,更能为客户业务管理方面增加优化的可能性。

特别的,在遇到故障时,应加强与客户沟通,将平台情况与业务情况进行相互同步,站在系统思维下,各方尽可能的优化,达到服务客户、服务业务的目标。此时,任何操作都有牵一发而动全身的情况。因此,针对目前情况,要综合考虑、多方讨论,防止因遗漏导致的一系列连锁反应。

痛点 6 人员递进变化

运维本身是一项重复单一的工作,终极目标是保证平台的稳定运行,并结合业务进行恰当的优化。作为其中重要的组成部分,人员配置是决定能否将平台稳定运行的前提。针对性格,更适合细心、稳重、考虑全面的,如此更能适应运维的各种场景。

随着公司快速发展,运维人员构成也逐渐变得多元化。个人职业规划与组织服务结合性、人员流动与资料积累的准确性等问题逐渐显现出来。

运维工作杂、多、不定时,因此需要在保证日常工作的同时,不断结合自身的职业规划进行提升,以此形成正向循环,在熟悉工作的同时,不断提升业务技能,两者不可偏废。

人员流动是组织的正常情况,针对如何能在不断的流动中保证平台运维经验的积累沉淀情况,需要建立完整的资料收集流程(日常问题处理场景化、常规操作标准化),并持续更新方法。如此尽管有人员的更迭,但对于组织来看,是不断积淀的。一般情况下,在做好人员管理、运维各阶段衔接, 3 年可将云基础环境设备管理达到成熟水平。

未来展望

随着云基础设备的不断完善,云底层正向着标准化,自动化发展。虽然底层的标准化在技术上并没有更多的突破,然而底层的变革更能助力上层业务的革新。

另外,随着对效率的追逐,不断标准化将逐渐演化成模块化上云方式,并在稳定运维后逐步转向对资源的优化利用。

最后,随着国家对安全性的要求,过去清一色的 x86 云也将逐步转向信创云。在不断可适配,可转化的变化下,将会进一步带来信创平台的发展。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广