"运维管理那点事儿"有奖征集活动(2月18日~3月29日)

在实际的运维管理工作中,大家都面临哪些难题?

困惑于在业务运行到关键时刻的系统故障问题,业务各个环节都面临停顿的风险;

需要平衡IT服务质量和有效资源的矛盾,需要引导业务部门设定合理的期望;

无法有效管理多供应商环境、对各供应商的职责难以划分;

缺乏统一操作规范和流程,无法预防误操作的发生并缺乏有效的监控和问题诊断;

缺乏流程管控和自动化工具,无法有效提升IT运维的效率和成效。

从2月18日起,到3月29日,AIX专家俱乐部社区将举办一个“运维管理那点事儿”的有奖征集活动,欢迎广大负责运维的朋友来参与,吐槽你们在运维中的各种问题以及遇到的难题,如果您的问题能够得到更多运维朋友的共鸣就可以获得我们的微信红包奖励(仅限前十位,以点赞的数量多少为排序标准。活动结束后,管理员会给前十位的运维朋友发送微信红包奖励)

“运维管理那点事儿”征集问题格式:

1、企业日常运维面临的难题:*********************;

2、对维保服务商的吐槽以及建议:*********************

参与方式,在本活动贴下根据问题格式进行直接回复即可。

活动征集时间:2月18日——3月29日

(备注:征集到大家集中关心的部分问题,我们后续会举办这方面的专业交流以及会收集来自社区专家、厂商的经验分享给大家)

推荐相关资料:

《IT运维管理实用资料集锦》,共10份资料:

http://www.aixchina.net/club/viewthread.php?tid=178751

参与303

19同行回答

zhangsharp20zhangsharp20数据库运维工程师外管
1、企业日常运维面临的难题:一、硬件设备、OS种类、数据库种类太多,对人员的技术涉猎范围性要求太高二、监控软件种类繁多,有开源的也有收费,还可以使用Python定制开发自己想要的监控平台,还可以仅仅使用shell脚本语言实现监控,哪一种更符合企业的需要也是需要考虑的。三、IT从...显示全部

1、企业日常运维面临的难题:

一、硬件设备、OS种类、数据库种类太多,对人员的技术涉猎范围性要求太高

二、监控软件种类繁多,有开源的也有收费,还可以使用Python定制开发自己想要的监控平台,还可以仅仅使用shell脚本语言实现监控,哪一种更符合企业的需要也是需要考虑的。

三、IT从业人员流动性大,一个熟练工技术成熟之后往往会选择跳槽增加薪水,对企业来说是种无形的人力成本的流失,运维工作也会因此存在不稳定性。

四、运维、测试、开发三方的沟通问题,比如如果企业权限控制的不好,开发具有生产的权限,可以随意在生产上进行开发,而如果有多台服务器需要控制版本的一致性问题,就给运维工作带来了很大的不便性。

五、运维技术在不断的更新,DT时代的到来对赋予了运维更大的责任和挑战,包括技术的更新和思维方式的变化。

2、对维保服务商的吐槽以及建议:

维保服务基本上都是领导层决定的,领导决定要购买的维保服务,即便质量不行也没什么办法,而且维保技术人员内部流动性也很大,所以这个具体看技术人员本身的技术能力和个人素质吧,往大点说,如果想要服务上去,就得让维保人员觉得是在给自己干活而不是在给公司干活。

收起
政府机关 · 2016-03-08
浏览1149
爱如潮水爱如潮水研发工程师四川农信
面临的难题:1、运维工作输入的复杂性:如IT架构的不合理,监管要求,业务上线投产压力,安全,领导想法等等。这些输入导致了工作的压力。2、行业技术以及标准化建设等与实际环境的融合的困难。如云计算,ITIL等等。3、运维队伍能力提升与运维工作量的矛盾。对供应商的吐槽和建议:1、加...显示全部

面临的难题:

1、运维工作输入的复杂性:如IT架构的不合理,监管要求,业务上线投产压力,安全,领导想法等等。这些输入导致了工作的压力。

2、行业技术以及标准化建设等与实际环境的融合的困难。如云计算,ITIL等等。

3、运维队伍能力提升与运维工作量的矛盾。

对供应商的吐槽和建议:

1、加强维保人员的人员管理,如专业素质和服务意识的提升。

2、加强维保服务的标准化,确保SLA能实现。

3、思考和发掘提升维保对于客户的价值,如某些场景下客户对维保供应商的其他要求。

收起
金融其它 · 2016-02-28
浏览1044
pysx0503pysx0503系统工程师第十区。散人
企业日常运维面临的难题:1.一般企业信息化发展都经历过的阶段,从几台机器,几台网络设备,然后每天扩展,缺少统一的扩展规划,逐步根据业务和经验来摸索,最后发展成“八国联军”一样的机房,多种设备,多种型号参差不齐。布线一改在改,到最后乱到无药可救。很多企业建设几年之后的网络都...显示全部

企业日常运维面临的难题:

1.一般企业信息化发展都经历过的阶段,从几台机器,几台网络设备,然后每天扩展,缺少统一的扩展规划,逐步根据业务和经验来摸索,最后发展成“八国联军”一样的机房,多种设备,多种型号参差不齐。布线一改在改,到最后乱到无药可救。很多企业建设几年之后的网络都存在这样的问题。

2.企业对信息化重视不高,投入不够,在前期环境搭建起来之后开始就逐步减少运维人员,减少运维资金,导致到在运行5年以后经常会出现设备备件,技术支持的严重短缺。

3.把数据备份,安全当作保险。大部分时间都不舍得,也不愿意在这方面去花钱,认为靠人力可以避免数据问题和安全问题。往往到后来会遭受严重的损失

4.缺少长远系统的规划,系统上线后一成不变,往往几年之后设备,技术就会被淘汰,到那时才想着来改变已经有些晚了

对维保服务商的吐槽及建议:

1.选择大厂商的维保,尽量原则原厂维保。在故障出现时候所能得到的支持是很有效的。供应商的技术水平参差不齐,面对突发故障时多数供应商的技术能力还是不足以快速的解决问题。

2.对于操作,养成习惯,谨慎,谨慎,在谨慎,出现了问题,真是最悔莫及.

3.销售,售前,售后结合,更多的是实际测试和操作。很多承诺的功能往往只是打了擦边球

收起
系统集成 · 2016-02-28
浏览1123
szhangkangszhangkang项目经理aaa
企业日常运维面临的难题:1、使用软件比较多,业界主流成型的产品运维过程中出现各种不同的bug和问题,尤其自主研发软件无统一的规范和运维的文档等。2、使用的硬件产品平台不统一,对运维团队人员能力要求较高;经过多年积累IT架构复杂,运维难度大。3、目前大部分企业缺少自动化管...显示全部

企业日常运维面临的难题:

1、使用软件比较多,业界主流成型的产品运维过程中出现各种不同的bug和问题,尤其自主研发软件无统一的规范和运维的文档等。

2、使用的硬件产品平台不统一,对运维团队人员能力要求较高;经过多年积累IT架构复杂,运维难度大。

3、目前大部分企业缺少自动化管理,大部分的运维工作还是靠运维的工程师统计和处理。

4、项目前期建设验收后,转运维过程出现各种文档缺少,没有实际可用建转运流程和要求。

5、运维部分在企业中是属于花钱单位,在很多企业中业务部门认为运维可有可无,对运维的重要性没有提升到一定的高度。

6、大部分运维都没有相应的应急预案,当出现重大故障时,都傻眼了。

6、运维团队缺少良好知识共享和相关的培训。

对维保服务商的吐槽及建议:

1、大部分运维工作都是想当然,未按照相关标准却操作,出现故障概率较高;一旦出现故障都会认为是运维团队的问题,影响面太大。建议建立运维的标准流程相关的工作票或者责任负责制度等。

2、运维工作经常出现加班,或者凌晨被叫醒去处理故障等,这是一种折磨和煎熬,晚上休息害怕电话响。建议壮大运维团队。

3、运维团队人员能力层次不齐,故障处理效率太低。意见提高整体的运维能力。

4、运维工作始终都被认为是处理不讨好的工作,得不到认可。建议多了解运维工作的内容,如果没有运维业务系统出现问题又是一种什么情况?

收起
互联网服务 · 2016-02-26
浏览3943
myciciymyciciyIT顾问某金融科技公司
遇到复杂问题时候,用户业务人员,IT运维人员,维保商一般容易发生扯皮.显示全部

遇到复杂问题时候,用户业务人员,IT运维人员,维保商一般容易发生扯皮.

收起
银行 · 2016-02-26
浏览1071
myciciymyciciyIT顾问某金融科技公司
1、企业日常运维面临的难题:*********************;1  企业IT环境复杂多变,运维人员之间的责任模糊,遇到问题不能及时定位2 运维手段一个是被动靠监控工具 一个是通过对常见问题点进行主动跟踪, 对监控工具的预防性预测没有充分的利用3 运维流程及其相应的预案执行...显示全部

1、企业日常运维面临的难题:*********************;

1  企业IT环境复杂多变,运维人员之间的责任模糊,遇到问题不能及时定位

2 运维手段一个是被动靠监控工具 一个是通过对常见问题点进行主动跟踪, 对监控工具的预防性预测没有充分的利用

3 运维流程及其相应的预案执行不够,预案不够完善,遇到问题手忙脚乱

2、对维保服务商的吐槽以及建议:*********************

1 维保商对企业IT 业务应用不熟悉,导致遇到问题,一般只从自己维保商的角度去考虑,缺乏整体观念,导致问题不容易被及时定位解决

收起
银行 · 2016-02-25
浏览1065
whyexewhyexe存储架构师中国金融电子化公司
做运维 和MA几年来总结了一些经验和大家分享:1,客户类型,系统紧要程度,金融用户就比较紧张,一些中小企业相对没有那么大的压力,维护现场气氛不要过于凝固,往往在轻松的环境效率会更高,在新华社一次小机宕机,备机没有接管,我当时有一点紧张,第一接触比较紧急的case,领导说不用管那么多...显示全部

做运维 和MA几年来总结了一些经验和大家分享:

1,客户类型,系统紧要程度,金融用户就比较紧张,一些中小企业相对没有那么大的压力,维护现场气氛不要过于凝固,往往在轻松的环境效率会更高,在新华社一次小机宕机,备机没有接管,我当时有一点紧张,第一接触比较紧急的case,领导说不用管那么多按照你的思路在做,支持你。给你很大的鼓励,干活也轻松了。查资料都很自如,思路都没有问题,很快把问题处理了,不要因为客户着急,催促,某某大领导站在后面,不用怕,他们不懂。你只要说出你处理和思路和预期结果就行。

2,处理方法:比如小机power服务器更换备件,准备的东西,系统能起来一定做系统备份,我们也督促客户做系统备份,客户就让现场工程师来备份太浪费时间,时间紧急没有备份,系统恢复用了3个小时,不备份的系统不做变更,特别涉及到停机的,一个忠告:不要打破自己的底线,否则受伤是自己,处理故障出了意外,不要抱怨太多,安心总结经验,会更好。下次客户还会认可你。

  小机故障定位 硬件和软件要首先判断出来,然后硬件的问题,集中几个问题,内存,风扇,电源,几类常规报错的现场要记住,机器不起机,80%来自内存,风扇,电源等,几率排查,这些都失效,考虑VPD ,根据手册去查,没有一个人对所有故障了如指掌的,业内一些专家一个建议,一个忠告有可能就能拯救你,比如换存储电池,等电池彻底失效在去更换,提示后自己操作事半功倍。在圈里慢慢成长。处理过的case 自己做一个自己的case库。

故障分析:对一些不可控的故障,不要随便操作,超出自己范围让公司去协调其他人,自己不要随便玩,客户也不会说你技术差,case 不要留一半。做操作信息收集全,不要急躁,不要蛮干,有时候更换东西的心里总是祈祷,上帝会帮助我,每次成功都会有成就感。

对维保的吐槽和建议:

操作习惯:停机操作,关机后看HBA卡,电源灯是不是灭了。然后在操作,微小的环节也要注意,按照正规的流程去操作,没有解决不了的问题,不用担心故障多大,始终遵守规则,不乱操作。多方协商。如果有人故意强调多少时间必须完成,你可以告诉他,我可以按照流程和规范操作具体多长时间,我无法估计,会尽快的搞好。最好留一个机器窗口这样减少误操作,很多大故障都是误操作造成的。

特别是数据丢失的恢复,这个远远比硬件困难,文件系统丢失,磁盘阵列信息丢失,数据库文件丢失,要做好充分准备在去操作,必须时让数据专家到现场恢复,一旦数据灾难超出自己能力范围,不要错上加错,小心驶得万年船,会让你的运维变得更轻松,升级也会很容易。 希望以上经验会帮助大家。

操作手册准备:升级难度大的,必要操作手册,减少失误,必须经过测试在去现场实施,否则故障来的突然无法控制。

收起
互联网服务 · 2016-02-25
浏览4144
热心冰块热心冰块项目经理浪潮INSPUR
1、企业日常运维面临的难题:a.传统运维越来越苦逼b.甲方不注重市场培育c.乙方贪得无厌坑蒙骗d.分工界面划分不清楚e.项目镀金情况太严重f.运维模式尚在解放前2、对维保服务商的吐槽以及建议:a.产品要保持连续性,否则将大部分精力用来学习新产品b.800接线员过于死性,没有灵活...显示全部

1、企业日常运维面临的难题:

a.传统运维越来越苦逼

b.甲方不注重市场培育

c.乙方贪得无厌坑蒙骗

d.分工界面划分不清楚

e.项目镀金情况太严重

f.运维模式尚在解放前

2、对维保服务商的吐槽以及建议:

a.产品要保持连续性,否则将大部分精力用来学习新产品

b.800接线员过于死性,没有灵活变通的权利,不以客户为中心

c.认证实行企业挂靠制度,让自费的苦逼青年也有翻本的可能

收起
系统集成 · 2016-02-25
浏览1108
kcw294196204kcw294196204系统工程师it
你不但要会这  还要会哪  比如 会shell  也要会perl  偶尔要会  反正啥都干 。。。说多了  心情不好显示全部

你不但要会这  还要会哪  比如 会shell  也要会perl  偶尔要会  反正啥都干 。。。说多了  心情不好

收起
银行 · 2016-02-25
浏览953
AdapterAdapter软件架构设计师Adapter
关于企业运维,有几点感想:1、人员紧张,常常是一个萝卜好几个坑,累啊!2、舍不得花钱,却总想让厂家、集成商把活儿全干了,谁都不傻...3、没有问题的时候,领导不重视你,应用部门也不爱理你,你要说搞点预防性的加固,很少会获得支持。一旦出了问题,所有人都会说:当初你为什么不...4、新技术...显示全部

关于企业运维,有几点感想:

1、人员紧张,常常是一个萝卜好几个坑,累啊!

2、舍不得花钱,却总想让厂家、集成商把活儿全干了,谁都不傻...

3、没有问题的时候,领导不重视你,应用部门也不爱理你,你要说搞点预防性的加固,很少会获得支持。一旦出了问题,所有人都会说:当初你为什么不...

4、新技术层出不穷,却没有时间学习,单位更不会有计划、系统性地花钱送运维人员培训,整天忙忙碌碌,找不到成就感。

收起
IT咨询服务 · 2016-02-24
浏览4012

提问者

彬彬
彬彬0218
网站运营经理twt
擅长领域: 存储服务器云计算

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2016-02-18
  • 关注会员:42 人
  • 问题浏览:21623
  • 最近回答:2016-03-08
  • X社区推广