在实际的运维管理工作中,大家都面临哪些难题?
困惑于在业务运行到关键时刻的系统故障问题,业务各个环节都面临停顿的风险;
需要平衡IT服务质量和有效资源的矛盾,需要引导业务部门设定合理的期望;
无法有效管理多供应商环境、对各供应商的职责难以划分;
缺乏统一操作规范和流程,无法预防误操作的发生并缺乏有效的监控和问题诊断;
缺乏流程管控和自动化工具,无法有效提升IT运维的效率和成效。
参与方式,在本活动贴下根据问题格式进行直接回复即可。
(备注:征集到大家集中关心的部分问题,我们后续会举办这方面的专业交流以及会收集来自社区专家、厂商的经验分享给大家)
推荐相关资料:
《IT运维管理实用资料集锦》,共10份资料:
企业运维面临的难题:
1:各种软硬件产品种类繁多(服务器,安全设备、存储都是两种类型以上),没有统一的运维管理软件。
2:出现问题才去维护,没有预警预报机制。
3:运维管理没有流程化,小问题自已处理,大问题直接联系集成商
4:数据级灾备建成后就没有进行过恢复测试演练
5:对于运维人员的培训基本上没有。
6:企业架构建设文档不够全面,给运维增加了难度。
对维保服务商的吐槽以及建议:
1:维保不是驻场,工程师响应时间不是很及时。
2:维保厂商的工程师流动性大,新接手的工程师经验不足,人员流动工作交接不好。
3:维保厂商对于技术上保密性做的太好,简单的技术都不愿透露(本钱?)
收起企业日常运维面临的难题:
1、目前随着企业业务规模的扩大,相关的系统也越来越多,而且每增加一个业务估计得上一套系统,服务器品牌和存储品牌杂乱无章,没有统一的品牌,it基础架构也比较复杂,有时间存在资源浪费现象。
2、企业自动化运维水平较低,很多情况一下依赖人工,相关自动化监控也不完善。
3、很多企业运维人员的技术水平参差不齐,特别是一些甲方,工作中容易出现散漫现象,有些情况下出现问题不能第一时间通知服务厂商,容易造成更大损失。
4、企业itil流程管理不完善。
5、有些企业对信息部门重视不够,只重视对企业盈利的业务部门,忽视对信息技术部门的投入、培训等。
对维保服务商的吐槽以及建议:
1、维保服务厂商一定要对自己维保的服务器建立一个档案。,这台服务器的配置、系统应用。包括服务器的生成日期、停产日期,服务的微码版本等等都要有一个详细的记录,同时提供针对这台服务器的相关备件。
2、重视对维保服务商的工程师技术培训,我在证券曾遇见过,报修后,来的工程师经验比较缺乏,还得得二线打电话寻求支持,后来还是来的资深一点的工程师才解决问题,要知道维保和集成有很大区别,维保的机器基本都是生产机器,搞不好会给客户造成很大的损失。
3、维保厂商最好指定专门的服务工程师对指定客户进行专门服务,一是客户在第一时间能找到联系人,二是工程师要增加对客户系统的了解程度。
4、维保服务商要和原厂保持一定的沟通了解,有些情况下,必需通过原厂二线甚至三线才能解决比较棘手的问题。
5、工程师服务意识要提高,不要因为降低用人成本而招聘一些服务意识、技术水平较差的人去,特别是维保厂商的销售干预等等吧!
收起1、企业日常运维面临的难题。
1)运维管理架构科学性及合理性管理。一个企业的运维可能已经经历了很多年、很多人,系统发生过很多次的变更。没有人能说清楚系统整体的架构及脉络,没人认敢去做大的架构变更或者改动。只要系统没有故障,就那么跑着,忍受系统陈旧不堪、忍受系统性能不足,忍受一系列的问题。
2)运维管理及作业规范化。很多企业的运维,缺乏标准化的管理。同样一个表空间的扩容作业,可能能做出若干种来。作业手册里面仅有如何做,从来没有做错了如何回退或者如何杜绝错误的指导。每一步作业,甚至五花八门。
3)只有当前运维,没有预警及规划。不管是监控软件,还是认为的巡检,似乎只关注当前的状态。很少有机制或者专职岗位去根据当前的信息对未来的使用或者运维进行一个规划或者预测。比如我们可以把系统中收集下来的当前及历史信息,用一种科学的方法来进行分析和判断,从而知道我们的资源规划及发展。
4)过渡依赖厂家,设备的硬件上,我们可以依赖厂家。但是架构的设计、实施以及运维,软件功能的使用上也依赖厂家的话。那么企业自己的运维人员就缺乏对系统的全面掌控。一但厂家不可靠,这个系统就变成僵尸了,没人敢动,没人敢改。更别说系统的灵活性及扩展性了。
5)过渡依赖监控软件,似乎上了监控软件就完事大吉了,没人去研究它是怎么监控的,监控的准不准。更没有人去关心监控软件底层实现的改进以及再利用。
6)预案与演练,其实每一个发生过重大IT故障的企业,我相信他们都有风险预案,甚至故障演练。但是故障还是发生了,甚至发生之后没有任何有效措施。你懂!
2、对维保服务商的吐槽以及建议。
1)维保服务商承诺的SLA,其实我认为这个都是面儿上的东西。承诺1小时到场,结果又是连线后线工程师又是连线国外工程师的,结果3天才解决问题。有什么用。还不如多花点心思把自己的基础架构搞结实。
2)厂家说的功能和你理解的功能。其实对于很多技术来讲,可以有很多种理解方法。有时候厂家承诺你的功能,不一定是你理解的那种。要研究到深处,自己去弄明白。不要光听别人说。人家一定会往最好的地方说。
收起
企业日常运维面临的难题:
1.企业使用众多品牌软,硬件产品,IT架构复杂。
2.自动化运维程度较低,缺少自动化监控软件,无法实时掌握业务系统运行状态。
3.新运维技术发展较快,无法结合现实业务,让相关新技术落地。
4.运维部门经常不公司重视,资源分配较少,而出现故障时,公司认为所有原因都在运维部门身上。
5.相关培训较少,运维工程师技能提高较慢。
对维保服务商的吐槽及建议:
1.日常运维操作喜欢走捷径,不按相关运维流程和操作规范做。比如更换故障硬件较少有人带防静电手镯,软件系统升级或系统升级常忘记备份。
2.维保服务商为了降低成本,常让运维工程师同时负责多个故障处理或技术支持工作,工程师日常工作量较大,操作时常时出现准备不足或响应不到位的情况。
3.缺少换位思考,各维保服务商在日常运维工作中,经常站在各自公司的立场和技术角度去思考问题,以至在日常运维,故障原因判断和处理过程中,时常出现推诿或扯皮的事情。
收起1、企业日常运维面临的难题:*********************;
a、软件环境变化快
系统越来越多,越来越难以维护,举个例子吧,15年到现在,过手超过几十个平台了,
大大小小厂家开发的,而且当年的操作系统,现在已经不支持了,软件更别提了,
每次安全扫描一堆的漏洞,打补丁也是越来越困难,所以软件环境变化是第一困难
b、可用性 天天都在喊高可用,几十个平台的投资,有时候考虑可用性需要翻好几倍,今天不是这个坏就是那个坏,
坏了还经常没人知道,网管经常监控不到,架构和软件层面的熟悉,必须要几个月,
底层想找个好运维,真心还是挺难得
c、性能
大家都喜欢速度快的,买了用不到,都浪费,有云资源池这块好多了
d、数据库
呵呵了,传统的x86或者小机带个存储,现在有serversan了,各种垃圾脚本甩上去,不优化,
经常出问题
e、人
其实最重要的是人,如果没有人,什么也干不成,运维是平时不出成绩还好,出问题第一个挨揍。
正所谓:肉没吃上,挨打都赶上了
2、对维保服务商的吐槽以及建议:*********************
1、不操心
出问题才解决,预检预修做不到,说实话,维保厂家的人,尤其是做x86维保的,工资也不高,干的事情太多
2、水平一般
这个不解释了
3、流动快
外包运维的,人员流动太快
4、对业务和架构了解不足
这个没啥说的,几个月速成的太多
收起关于企业运维,有几点感想:
1、人员紧张,常常是一个萝卜好几个坑,累啊!
2、舍不得花钱,却总想让厂家、集成商把活儿全干了,谁都不傻...
3、没有问题的时候,领导不重视你,应用部门也不爱理你,你要说搞点预防性的加固,很少会获得支持。一旦出了问题,所有人都会说:当初你为什么不...
4、新技术层出不穷,却没有时间学习,单位更不会有计划、系统性地花钱送运维人员培训,整天忙忙碌碌,找不到成就感。
收起企业日常运维面临的难题:
个人感觉对企业来说,最重要的是宏观架构上的问题,这就好比打仗排兵布阵,一个好的计谋好的规划一定是成功的保障。当今IT技术发展日新月异,云计算、大数据、docker、双活容灾、开源等等各种各样的新技术对传统的基础架构进行着冲击。对于企业来讲,如何选择适合自己的新技术,是关系企业未来发展的难点。就拿云计算来举例,现在云的概念也炒作了很多年,但在企业中真正大规模使用私有云的单位少之又少。观其原因,云的产品有很多公司在做,都用到了不同的技术,相互的产品之间不兼容,且这个产品的特点是依赖性特别强,如果使用了哪家的产品,从技术角度以后不太好去更换其它家的产品。而每家的产品又做的不是特别完美,因此对于企业来讲,也只能在各家产品的POC中继续进行着测试。
对维保服务商的吐槽及建议:
我自己也做过售后,深知做维保人员的辛苦。经常性的救火加班也悟出了一些道理。
首先是要有一个认真负责的态度。做维保这个很重要,有时技术不强没关系,但遇到问题后认认真真一点点分析,不放弃,多请教其他同事,有责任心的去把这个case从头跟到尾,我觉得也就可以了。
其次要有良好的抗压能力。在机器宕机、硬件故障时,往往一堆领导站在你背后指着鼻子要求几分钟内把系统恢复。这时一定要有良好的心态,要学会在高压力下平静快速的解决问题。
最后要有一颗好学的心。相信人无完人,谦虚好学一定会有更多的收获。
收起
做运维 和MA几年来总结了一些经验和大家分享:
1,客户类型,系统紧要程度,金融用户就比较紧张,一些中小企业相对没有那么大的压力,维护现场气氛不要过于凝固,往往在轻松的环境效率会更高,在新华社一次小机宕机,备机没有接管,我当时有一点紧张,第一接触比较紧急的case,领导说不用管那么多按照你的思路在做,支持你。给你很大的鼓励,干活也轻松了。查资料都很自如,思路都没有问题,很快把问题处理了,不要因为客户着急,催促,某某大领导站在后面,不用怕,他们不懂。你只要说出你处理和思路和预期结果就行。
2,处理方法:比如小机power服务器更换备件,准备的东西,系统能起来一定做系统备份,我们也督促客户做系统备份,客户就让现场工程师来备份太浪费时间,时间紧急没有备份,系统恢复用了3个小时,不备份的系统不做变更,特别涉及到停机的,一个忠告:不要打破自己的底线,否则受伤是自己,处理故障出了意外,不要抱怨太多,安心总结经验,会更好。下次客户还会认可你。
小机故障定位 硬件和软件要首先判断出来,然后硬件的问题,集中几个问题,内存,风扇,电源,几类常规报错的现场要记住,机器不起机,80%来自内存,风扇,电源等,几率排查,这些都失效,考虑VPD ,根据手册去查,没有一个人对所有故障了如指掌的,业内一些专家一个建议,一个忠告有可能就能拯救你,比如换存储电池,等电池彻底失效在去更换,提示后自己操作事半功倍。在圈里慢慢成长。处理过的case 自己做一个自己的case库。
故障分析:对一些不可控的故障,不要随便操作,超出自己范围让公司去协调其他人,自己不要随便玩,客户也不会说你技术差,case 不要留一半。做操作信息收集全,不要急躁,不要蛮干,有时候更换东西的心里总是祈祷,上帝会帮助我,每次成功都会有成就感。
对维保的吐槽和建议:
操作习惯:停机操作,关机后看HBA卡,电源灯是不是灭了。然后在操作,微小的环节也要注意,按照正规的流程去操作,没有解决不了的问题,不用担心故障多大,始终遵守规则,不乱操作。多方协商。如果有人故意强调多少时间必须完成,你可以告诉他,我可以按照流程和规范操作具体多长时间,我无法估计,会尽快的搞好。最好留一个机器窗口这样减少误操作,很多大故障都是误操作造成的。
特别是数据丢失的恢复,这个远远比硬件困难,文件系统丢失,磁盘阵列信息丢失,数据库文件丢失,要做好充分准备在去操作,必须时让数据专家到现场恢复,一旦数据灾难超出自己能力范围,不要错上加错,小心驶得万年船,会让你的运维变得更轻松,升级也会很容易。 希望以上经验会帮助大家。
操作手册准备:升级难度大的,必要操作手册,减少失误,必须经过测试在去现场实施,否则故障来的突然无法控制。
收起企业日常运维面临的难题:
1、使用软件比较多,业界主流成型的产品运维过程中出现各种不同的bug和问题,尤其自主研发软件无统一的规范和运维的文档等。
2、使用的硬件产品平台不统一,对运维团队人员能力要求较高;经过多年积累IT架构复杂,运维难度大。
3、目前大部分企业缺少自动化管理,大部分的运维工作还是靠运维的工程师统计和处理。
4、项目前期建设验收后,转运维过程出现各种文档缺少,没有实际可用建转运流程和要求。
5、运维部分在企业中是属于花钱单位,在很多企业中业务部门认为运维可有可无,对运维的重要性没有提升到一定的高度。
6、大部分运维都没有相应的应急预案,当出现重大故障时,都傻眼了。
6、运维团队缺少良好知识共享和相关的培训。
对维保服务商的吐槽及建议:
1、大部分运维工作都是想当然,未按照相关标准却操作,出现故障概率较高;一旦出现故障都会认为是运维团队的问题,影响面太大。建议建立运维的标准流程相关的工作票或者责任负责制度等。
2、运维工作经常出现加班,或者凌晨被叫醒去处理故障等,这是一种折磨和煎熬,晚上休息害怕电话响。建议壮大运维团队。
3、运维团队人员能力层次不齐,故障处理效率太低。意见提高整体的运维能力。
4、运维工作始终都被认为是处理不讨好的工作,得不到认可。建议多了解运维工作的内容,如果没有运维业务系统出现问题又是一种什么情况?
收起