sodu
作者sodu·2010-11-12 10:57
CIO·的为

运维那点事(转)

字数 2004阅读 2657评论 1赞 2

泛泛而谈

最近一直在帮张琦老师弄一些课程安排的事情,也顺便聊了聊现有培训机制需要改革的方向,拒绝填鸭式的教育是当务之急,讨论之余写下这篇文章,仅此纪念,别无他意。有竞争力的运维人员应该考虑什么?且听熊熊慢慢道来~

运行的职能:包括减少系统宕机时间;依赖各种文档寻找解决方案;根据实际情况进行设备更新换代(改变老硬件的用途或者淘汰老硬件)

支持的工作:包括高可用、高可靠、高扩展性的考虑;服务的范围(不同的服务范围需要不同的技能要求);合理的安排时间;

建立文档:非常重要的工作,包括标准化文档(有没有标准化是衡量一个运维人员到一个运维团队乃至一个公司的水平的重要依据之一),为硬件打上标签(注意用可靠的标签,防止标签老滑脱落);建立良好的系统安装文档与客户维护文档。一句话(文档能力决定你能够做到什么位置,这句话一点都不夸张)

工单系统:防止扯皮的最佳办法。具体应该包括故障工单系统的具体功能(一定要考虑的面面俱到),故障工单系统的用户接受程度(说白了,有了工单就要严格执行,不然设计了跟没设计有啥区别),随时追踪问题解决情况。

灾难恢复:提供上位的不二法则,老板怕什么,不怕你做了什么工作业绩,那是他花钱请你来觉得天经地义你应该做的。他怕的是你不做的话他会得到哪些损失,而这些损失的提前防范和发生时候的及时恢复(会不会损失数据,损失多少数据,如果不损失数据,多久可以恢复,对未来工作有没有隐患影响)。

书面政策:包括运维方案策略、备份恢复策略、用户管理策略、安全防范策略等等,别小看这些,刚才就说了,文档能力决定你能做到什么位置,考虑的越多,老板越欣赏你~

具体来说

运维即运行与维护,主要负责公司整体IT系统及网络环境的架设与硬件设备的安装维护工作。运维不仅是与冰冷的机器打交道,更多时候也是与人打交道(包括公司的外部用户与内部用户)。因此所有负责运维工作的人员应该致力为客户创造一个稳定、可靠的环境,所有的更新与改造都应该在测试OK的前提下迁移到正式生产环境,用一个高人的话说,“运维人员最大的成绩就是没有成绩(所谓没有成绩就是指服务器不出问题,让任何人感觉不到服务器的异常)”,呵呵,很悲哀吧~

降低系统宕机时间是提供稳定、可靠环境的最低限度保障,没有客户能够忍受昂长的系统宕机时间或者网络瘫痪时间,哪怕他只是想上网看看新闻或者陪好友聊聊QQ等等,第一时间发现问题并排除是十分必要的(Nagios/Cacti等第三方工具提供了监控与报警机制,只需要稍加配置并编写合适的脚本,既可以完善你的整体服务器监控)。

当你进入一个已经运营很久的公司来当运维的时候,第一时间就是找到他们相关的依赖文档(这点我是深有体会,现在很多知名的互联网企业,由于种种历史遗留问题,并不能很好的提供这类文档,可想而知给运维工作带来多大的困扰)。文档应该包括机房机柜及硬件设备的摆放位置,具体的服务器型号配置及用途,网络拓扑图,以及相关的产品说明书甚至是合同。

小刘总是跟我抱怨其公司的服务器太陈旧,以至于无法满足业务需求,并且没法更好的进行更新及改造测试,以至于他这次购置服务器的时候询问我的意见,我问他新购置服务器是否考虑与原有服务器有所关联,可以采用移花接木的手段,将重要的数据库系统迁移到新的服务器中,将一些实在太老的服务器,能整合的整合,不能整合的就直接淘汰掉吧,要知道,用在老旧服务器维护上面的成本要远远高于采用新服务器的价钱~

另一个比较重要的方面是工单系统,这个张琦老师还希望我能够写出一份好的工单系统以方便大家下载,呵呵,其实现在有一些第三方的工单软件,但是价格不菲,free的产品里面还没有发现很好用的(主要大多数是英文页面,感兴趣的朋友可以去Google一下),而且每个公司的实际情况不同,工单系统更直观的反应了运维人员的工作状况与质量。

这里只是说一下工单主要包括的内容。好的工单系统应该包括请求状态,响应状态,处理人员,处理时间,反馈时间等等这些基本方面,而考量一个运维人员应该包括开出的工单数量,响应数量,完成数量,未完成数量,未完成原因,完成时间,错误重复出现率等等。一个工单制度,需要各部门的配合,否则不能做到上行下效,那么工单只是一纸空文罢了~

最后再说说文档,这里面的学问可大了,文档降低了发生单点故障的可能性,有助于减少重复的操作,查阅文档可以更快的解决问题以节省时间,而且建立统一的标准化文档更利于团队整体维护工作,不要介意将解决方法公布于众,因为那些是早晚都会被人家知道的,技术的提高在于共享,这个道理很简单,如果你会了,那么你就算共享了,你依然是高手,如果你不会,通过共享你得到提高,也能够更好的开展工作。良好的文档能力必不可少~

一家之言,仅供参考,如有纰漏,还望不吝赐教~

欢迎大家一起交流技术!互相学习!
作者:bear_cat 来源:51cto

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论1 条评论

mysmallzonemysmallzone系统工程师广州
2016-08-02 16:43
谢谢分享宝贵的工作经验!
Ctrl+Enter 发表
X社区推广