易捷行云EasyStack云社区
作者易捷行云EasyStack云社区·2020-08-18 17:58
软件实施顾问·易捷行云EasyStack

易捷行云新一代私有云全场景智能统一运维|轻运维之场景化运维

字数 1994阅读 619评论 0赞 0

编者按:
易捷行云新一代私有云EasyStack ECS将1000+家大中型企业客户、数万节点规模云平台的运维经验产品化,实现了轻运维。它基于安全、稳定、高效的新一代数据中心分布式云操作系统,通过一体化、场景化的设计理念将平台与服务相分离,实现了全平台的可进化能力和轻运维能力。在轻运维方面,它可实现超大规模云计算中心的智能统一运维,不仅实现了日志、监控、告警的可视化、自动化,还可以自主探测系统拓扑与服务状态的变化,进而实现基于智能感知的故障预诊断分析和快速自愈。
本篇为易捷行云轻运维系列之场景化运维篇。

![]

云基础设施服务复杂,同时在日常IT运维工作中存在大量重复的日常工作任务,传统私有云运维往往依赖于运维人员的运维管理技能,手动操作容易出错。企业迫切需要更为智能化的场景化运维方案,在IT系统的全息管理视图之上,依据不同的管理场景,全面掌控数字化业务的运行态势,实现业务运营与IT运维的有效管理与决策。

全栈运维场景,统一运维流程

当前,越多的企业正在经历从手工运维,自动化运维、DevOps甚至AIOps转型的过程。但在复杂场景下的故障处理、变更管理过程中,仍需要人来掌控决策的过程。易捷行云新一代私有云ECS提供产品化、场景化的运维服务,实现全栈运维场景的统一运维,从业务的视角进行IT基础资源的管理与维护,辅助运维人员复杂场景下的操作与决策,减少误操作风险,带来了系统的稳定、安全与效率提升。 例如,在如下几类手工操作场景中:
1、节点维护不影响运行业务
企业数据中心往往存在不同品牌、规格、型号的服务器、存储等设备,一旦发生系统故障需要很长的周期进行排查和解决。易捷行云新一代私有云ECS拥有广泛的硬件和软件的生态兼容性,可整合系统软件、硬件、虚拟资源的运维管理,集中在一个管理平面上,进行集中调度和管理;更换CPU、内存条、扩展网卡、系统盘或节点背板,这些维护操作不会影响节点上的云主机数据。

![]

节点维护不影响业务运行
2、存储集群容量提示,异常快速定位
存储集群运行状态和容量实时提示,动态平衡集群内数据分布;实时监控反馈硬盘设备的健康性和IO状态,发现硬盘处于慢盘、损坏、接近使用寿命期限时,会向用户指定的收件邮箱发送告警邮件。同时,推出硬盘点灯功能,可视化快速定位异常问题磁盘,指导运维人员手动更换磁盘。

![]

硬盘点灯,异常快速定位
3、系统停机维护无需后台操作
维护人员根据维护计划进行系统下电操作,对系统进行停机维护,整个过程无需后台操作,可一键关闭云环境,不需要再针对单独节点进行下电操作。云平台辅助运维人员安全确认,自动检查系统是否仍然存在运行的业务。维护人员在系统下电维护后,对系统进行上电操作,以使所有业务恢复正常。

![]

系统维护无需后台操作
此外, 传统运维管理的人工及被动响应方式无法支撑数字化业务灵活、快速的发展。相比传统私有云的复杂繁琐,易捷行云新一代私有云EasyStack ECS是一种高度产品化的体验,它可以应用到没有专业运维人员的普通企业数据中心环境,在巡检、故障处理、平台扩容等各种复杂的运维场景中,可以实现无人值守智能运维,提高业务支撑效能与水平。比如,巡检全流程的自动化,异常自动化监测分析,从单节点到批量资源的一键式扩容以及故障自检测和故障自愈等。

案例:某研究院重点项目场景化运维支撑业务高效运行

某研究院国家重点项目于2018年正式立项,执行期5年,专项汇集了该研究院多个单位优势资源,致力于构建包含资源、环境、生物、生态等多个领域的大数据云服务平台,推动并实现大数据技术创新、重大科学 发现和一站式全方位宏观决策支持。该项目云平台由易捷行云承担建设,在云平台建设中,该项目对于计算、存储等性能要求极高,需满足对AI计算,大气研究、生物研究、空间研究等科研业务的支撑。
为保证该项目对于高性能计算和高性能存储的要求,易捷行云对该项目进行远程自动化运维,尤其对计算和存储方面的各类指标进行实时监控,提供场景化解决方案。比如存储硬盘故障后自恢复,自动巡检告警、服务故障重启等,全程无人工干预,在业务无感知的情况下实现分钟级的故障自愈。另外对于 扩容和节点的调整,易捷行云通过远程运维的方式,无需输入命令行,完全应用图形化、界面化的操作 ,就可实现“按需扩容、弹性拓展”的轻运维方式,一键式自动化完成资源扩容,大大增强云平台的可用性和可靠性,为探索大数据驱动、多学科融合的科学发现新范式提供了有力支撑。
私有云平台在企业打造核心竞争力中承担着越来越重要的地位,企业对云平台更敏捷、稳定、弹性的要求也越来越高。易捷行云新一代私有云ECS依据不同的运维场景、识别场景角色,构建全栈运维场景,统一运维流程,帮助客户不断提升云平台的运维能力,以轻运维的方式,带来了系统的稳定、安全与效率提升。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广