优维科技
作者优维科技2018-10-26 16:54
it技术咨询顾问, 优维科技

优维科技EasyOps在德邦物流的落地案例分享

字数 2035阅读 1842评论 0赞 2

随着近年来德邦业务的快速发展,业务应用及系统的数量及复杂度与日俱增。一方面,业务对IT的依赖越来越大,另一方面,IT本身的运行压力也越来越大。德邦物流数据中心承担着面向整个物流业务系统运维保障,如何以更有效的方式来保障业务,如何体现IT组织的价值,如何使IT组织本身更有效的运作是数据中心当前面临的重要课题。

一、现状及痛点

团队背景

人数:800+

团队组织结构:开发、测试、配置管理、运维组

IT资源背景

ehu8my8ho1s

ehu8my8ho1s

由此,对于业务系统的安全性、可靠性、可用性、可扩展性挑战也越来越大。

此外,随着服务器的数量每年巨增,类型逐步进行多元化、虚拟化、云化。其应用实例数量逐步增多,业务对于IT交付速度要求也越来越高。面临四大挑战:

1、资源管理的挑战

硬件设备资源迅速增长,如何以更低成本、更少风险来维护它?

2、标准化挑战:

资源增多,数据库庞大复杂,各部门架构不一,如何找到各部门利益平衡点,标准化资源数据,降低人工运维成本?

3、流程挑战:

运维流程走Jira效率低下,项目需求管理缺陷多,安全运维有风险,如何提升团队效率?

4、业务快速交付的挑战:

业务场景更复杂,业务连续性如何保证?如何进行事故快速恢复以及事前的预知?

二、建设过程

urzl7yatg4

urzl7yatg4

平台整体能力架构图谱(点击查看大图)

平台整体能力架构图谱如上,在以应用为中心的CMDB能力构建上,进行所有资源的自动化、可视化、数据展示等功能实现,以达到运维工作效率的提示,避免重复手工操作风险;并与现有BMC进行结合组建智能监控中心,提高事故的预知与排查效率。

三、建设成果


分属模块:应用CMDB

目标:应用CMDB覆盖率

建设前:手工管理,部分无覆盖

建设后:平台管理,部分数据自动化获取,已纳入运维管理部分,覆盖率100% ;采集机房、机柜等物理设备和网络设备的信息,共12款设备型号,13种类别信息


分属模块:运维自动化、持续交付

目标:应用自动化发布

建设前:无自动化发布平台

建设后:自动化发布平台覆盖所有非第三方的业务及管理共34个系统。发布平台与自动化集成及自动化测试对接成功,应用发布一键化部署


分属模块:运维自动化、持续交付

目标:流程中心

建设前

建设后

JIRA平台管理运维流程,项目管理效率低

对CMDB基础资源数据实时更新

完成容量管理、IP资源分配、设备上下架整个生命周期的流程

分属模块:应用CMDB、持续交付

目标:应用标准化

建设前:各系统应用目录不统一,环境配置未分离

建设后:针对DPAP框架服务层和业务代码,对目录进行规划整改,形成统一目录结构规范,端口规范,环境配置抽离,并规范日志/数据,最终达到应用标准化


分属模块:智能监控

目标:智能监控

建设前:缺乏故障预警机制

建设后:快速定位故障,故障得到主动、快速处理;拥有流程化故障处理机制


分属模块:/

目标:平台能力

建设前:无DevOps人员

建设后:提高工具管理维度的能力;EasyOps流程中心贯穿运维交付链;培养若干具有运维开发能力人员,并成立新的运维开发小组

四、场景能力落地

运维自动化:

EasyOps可实现“双11”场景下的分钟级快速扩容,实现应用发布一键化部署

分钟级扩容

应用/系统/组件等运维自动化

应用/系统/组件等巡检自动化

应用版本管理

……

持续交付:

双“11”期间若有应用升级,可持续部署软件资源及应用包,FOSS应用正常全量部署时长仅需10分钟

配置包

程序包

……


智能监控:

EasyOps可实现ECSAPI实时监控主机/应用/系统状态,预警阈值高峰,双11不慌乱,高峰期快速扩容

应用状态

组件状态

主机流量排行

告警趋势

……


ITOA

EasyOps可实现“双11”场景下的运营分析功能,容量概览展示图随时上报主机容量状态,对多个时间点展示多维状态

主机容量

应用容量

……

五、客户价值

实施EasyOps前后部署效率对比:
4qv495o47bb

4qv495o47bb

“双11”场景快速扩容时间对比:
fkvd87lsl8j

fkvd87lsl8j

六、用户评价

EasyOps提升了德邦IT运营精细化管理能力,保障了2C业务的爆发式增长;以及支持底层基础设施开放平台化,转变了运维理念,通过平台的全面支撑,即DevOps全栈运维平台,实现了如下几大目标:

1、信息共享化:实现了统一的资源管理和业务信息管理平台,在该平台中,可以统一管理资源及业务信息,给运维全流程自动化、智能监控和运营分析的提供全信息的支撑。

2、运维自动化调度:实现了从资源管理层、架构服务层和应用服务层的端到端的DevOps自动化能力调度,真正提升IT组织中各类角色的效率和质量要求,比如说开发/测试/运维等等。在运维场景上,也覆盖不同的IT运维场景,比如说资源变更/配置管理/应用发布/业务调度等等。

3、海量数据化运营:能够真正给业务能力带来持续优化,提供了给领导层更多的运营决策参考。驱动了运维质量/成本/效率/体验多方面的全面提升。比如,具体的能力有:

故障root cause分析;

服务可用性和性能优化的主动预测;

全面的服务影响评估;

机器学习;

异常自动发现……

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广