一个全面的运维系统,需要完成的工作有哪些呢?

一个全面的运维系统,需要完成的工作有哪些呢?显示全部

一个全面的运维系统,需要完成的工作有哪些呢?

收起
参与6

返回zonglei001的回答

zonglei001zonglei001技术支持中国电信系统集成

这个问题问的很大,不过在网上看到蘑菇街运维经理的见解,分享一下:

关于运维的范畴,我的理解总结下来应该包括五个维度:效率、稳定、安全、体验和成本。其中效率和稳定可能是运维同学最本职最应该优先做好的事情;安全、体验和成本是运维同学在基础做好的前提下,能够更进一步的方向。下面详细说明一下:

(1).效率
这里重点指的是日常运维例行工作的效率,因为这些工作是运维最基础的工作:资源分配&回收、域名配置、VIP配置、持续集成&发布、应用部署、应用扩容&缩容等。通常提到的运维自动化,大多是集中在这些工作上,因为这些工作偏日常和重复。

运维自动化的目标就是解放运维的生产力,提升运维效率,降低人为失误,把运维的能力沉淀到运维的技术平台上,让周边的人和系统依赖的是运维的能力,而不是运维的人,同时运维的同学可以有更多的精力去做更有价值的事情。目前业界自动化的解决方案非常丰富,也形成了一定的方法论和套路,所以建议多借鉴业界经验,优先把这些问题解决掉。

(2).稳定(质量)
可以通过监控、全链路、强弱依赖、限流降级、容量评估、预案平台等措施,让业务运行更加稳定。做好这一点,需要有相对比较独立、专业的监控和稳定性平台来支持。

这部分目标是最大程度地保障系统的稳定性和运行质量。即使出现问题,也能够快速发现、快速响应、快速(自动)恢复。

(3).安全
安全,是横向与运维同等甚至更加重要的专业领域。但同时又是跟运维紧密相关的,运维同样要关注安全,因为安全出现导致的问题,往往也会给运维带来沉重的防护和修复成本。我们经常提到的安全类关键词,各类主机安全、DB安全、Web安全、应用安全等等,与此相关的还有漏洞、DDos、CC等。

(4).体验
这里提到的体验,指的是终端用户的访问体验。对于非功能或非产品的使用体验,运维最需要关注的是访问速度。开发团队的同学,可能更多的注意力会放在自己负责的代码以及该部分的性能问题,不会关注到端到端全流程的性能和体验。而运维可以站在全局的角度来审视和治理整个端到端的全链路性能情况,并给出对应的性能优化建议。

(5).成本
成本问题,也就是技术ROI(投入产出比)的问题。当系统规模和体量变大之后,掌控在运维手中的各类资源,将占整个研发团队支出的大头。如果没有很好的成本控制意识和策略,资源体量将会持续增大,甚至是翻倍或指数级的增长,对于公司成本会是非常大的负担和压力。

运维工作者需要考虑到服务器CPU资源利用率的提升(引申出来各种虚拟化、容器或云资源的使用)、IDC&CDN流量带宽使用的管控,还有人力的投入和成本的管控。如何使得系统能够更高效地被充分利用起来,如何能够最大限度的减少成本支出,是我们必须要去考虑的问题。

以上便是我理解的运维,可以看到这个运维范畴其实可以是很大的;或者这样来说,只要最终是跟线上业务运行相关的工作,都是运维要关注的。如果运维仅仅是片面和狭隘地给自己限定一个范围,无法做到提前统筹和规划,便很容易变成被动响应的角色。

以上提到的几个维度,在一个公司里,包括蘑菇街,都会有不同的专业团队来承担,比如我们就有安全团队、稳定性团队等等。但是在日常工作中,运维团队跟这些团队是不分彼此的, 因为每一项工作或项目最终要以线上实际现状为导向,而运维是最清楚和了解这些细节的,同时最终产品或功能都要通过运维来落地和运营。

所以,以上的几个维度不是孤立存在的,而是相互影响和互为依赖的。比如如果实现了效率高、稳定性好、体验优越、安全等级高;那么必然地,系统更加容易管控,成本(硬件、带宽和人力)会下降。再比如,稳定性相关的工作比如全链路、容量评估做的好,提升体验的工作开展起来也更加方便。所以,运维是贯穿整个软件生命周期的持续性工作,对待运维工作也必须要有更全局的视角。

此外,当业务体量增长到一定程度时,运维体系和运维效率如果不能匹配地支撑,一定会阻碍业务发展。因此,在技术团队中一定要 对运维有一个正确的理解和定位。

系统集成 · 2018-07-12
浏览2712

回答者

zonglei001
技术支持中国电信系统集成
擅长领域: 网络数据库安全数据安全

zonglei001 最近回答过的问题

回答状态

  • 发布时间:2018-07-12
  • 关注会员:2 人
  • 回答浏览:2712
  • X社区推广