在实际的运维管理工作中,大家都面临哪些难题?
困惑于在业务运行到关键时刻的系统故障问题,业务各个环节都面临停顿的风险;
需要平衡IT服务质量和有效资源的矛盾,需要引导业务部门设定合理的期望;
无法有效管理多供应商环境、对各供应商的职责难以划分;
缺乏统一操作规范和流程,无法预防误操作的发生并缺乏有效的监控和问题诊断;
缺乏流程管控和自动化工具,无法有效提升IT运维的效率和成效。
参与方式,在本活动贴下根据问题格式进行直接回复即可。
(备注:征集到大家集中关心的部分问题,我们后续会举办这方面的专业交流以及会收集来自社区专家、厂商的经验分享给大家)
推荐相关资料:
《IT运维管理实用资料集锦》,共10份资料:
1、企业日常运维面临的难题。
1)运维管理架构科学性及合理性管理。一个企业的运维可能已经经历了很多年、很多人,系统发生过很多次的变更。没有人能说清楚系统整体的架构及脉络,没人认敢去做大的架构变更或者改动。只要系统没有故障,就那么跑着,忍受系统陈旧不堪、忍受系统性能不足,忍受一系列的问题。
2)运维管理及作业规范化。很多企业的运维,缺乏标准化的管理。同样一个表空间的扩容作业,可能能做出若干种来。作业手册里面仅有如何做,从来没有做错了如何回退或者如何杜绝错误的指导。每一步作业,甚至五花八门。
3)只有当前运维,没有预警及规划。不管是监控软件,还是认为的巡检,似乎只关注当前的状态。很少有机制或者专职岗位去根据当前的信息对未来的使用或者运维进行一个规划或者预测。比如我们可以把系统中收集下来的当前及历史信息,用一种科学的方法来进行分析和判断,从而知道我们的资源规划及发展。
4)过渡依赖厂家,设备的硬件上,我们可以依赖厂家。但是架构的设计、实施以及运维,软件功能的使用上也依赖厂家的话。那么企业自己的运维人员就缺乏对系统的全面掌控。一但厂家不可靠,这个系统就变成僵尸了,没人敢动,没人敢改。更别说系统的灵活性及扩展性了。
5)过渡依赖监控软件,似乎上了监控软件就完事大吉了,没人去研究它是怎么监控的,监控的准不准。更没有人去关心监控软件底层实现的改进以及再利用。
6)预案与演练,其实每一个发生过重大IT故障的企业,我相信他们都有风险预案,甚至故障演练。但是故障还是发生了,甚至发生之后没有任何有效措施。你懂!
2、对维保服务商的吐槽以及建议。
1)维保服务商承诺的SLA,其实我认为这个都是面儿上的东西。承诺1小时到场,结果又是连线后线工程师又是连线国外工程师的,结果3天才解决问题。有什么用。还不如多花点心思把自己的基础架构搞结实。
2)厂家说的功能和你理解的功能。其实对于很多技术来讲,可以有很多种理解方法。有时候厂家承诺你的功能,不一定是你理解的那种。要研究到深处,自己去弄明白。不要光听别人说。人家一定会往最好的地方说。
收起
企业日常运维面临的难题:
个人感觉对企业来说,最重要的是宏观架构上的问题,这就好比打仗排兵布阵,一个好的计谋好的规划一定是成功的保障。当今IT技术发展日新月异,云计算、大数据、docker、双活容灾、开源等等各种各样的新技术对传统的基础架构进行着冲击。对于企业来讲,如何选择适合自己的新技术,是关系企业未来发展的难点。就拿云计算来举例,现在云的概念也炒作了很多年,但在企业中真正大规模使用私有云的单位少之又少。观其原因,云的产品有很多公司在做,都用到了不同的技术,相互的产品之间不兼容,且这个产品的特点是依赖性特别强,如果使用了哪家的产品,从技术角度以后不太好去更换其它家的产品。而每家的产品又做的不是特别完美,因此对于企业来讲,也只能在各家产品的POC中继续进行着测试。
对维保服务商的吐槽及建议:
我自己也做过售后,深知做维保人员的辛苦。经常性的救火加班也悟出了一些道理。
首先是要有一个认真负责的态度。做维保这个很重要,有时技术不强没关系,但遇到问题后认认真真一点点分析,不放弃,多请教其他同事,有责任心的去把这个case从头跟到尾,我觉得也就可以了。
其次要有良好的抗压能力。在机器宕机、硬件故障时,往往一堆领导站在你背后指着鼻子要求几分钟内把系统恢复。这时一定要有良好的心态,要学会在高压力下平静快速的解决问题。
最后要有一颗好学的心。相信人无完人,谦虚好学一定会有更多的收获。
收起
1 企业IT环境复杂多变,运维人员之间的责任模糊,遇到问题不能及时定位
2 运维手段一个是被动靠监控工具 一个是通过对常见问题点进行主动跟踪, 对监控工具的预防性预测没有充分的利用
3 运维流程及其相应的预案执行不够,预案不够完善,遇到问题手忙脚乱
2、对维保服务商的吐槽以及建议:*********************
1 维保商对企业IT 业务应用不熟悉,导致遇到问题,一般只从自己维保商的角度去考虑,缺乏整体观念,导致问题不容易被及时定位解决
收起