我不太赞同运维可以通过大数据来实现,也不觉得要把重心放在大数据运维上。
运维的重心应该是应该是运维自动化。
运维主要是两大部分工作,运维规划实施和故障预警和处理。
规划实施主要是基础架构的建设,跟大数据关系不大,那么主要就是故障预警和处理。故障又分为硬件故障和软件故障,机器硬件跟人不一样,机器出问题的概率是完全随机的,可能是批次有关,可能跟机房环境改变有关,可能跟环境变更有关,跟微码有关,对于传统IT来说,无法建立大数据基础,也无法架构模型,对于互联网的大型集群架构来说,硬件故障完全不用及时处理,发现后集中处理就可以。
至于软件故障,完全是有因可循的,跟业务和变更,bug等相关。
所以,是否高估了大数据的能耐?
收起大数据智能运维是IT运维的一个补充,而非全部,目标是减少由于运维宽度粒度变化造成的大数据量对运维排障形成的压力,再智能的大数据分析也不太可能减少机器尤其硬件出问题的概率,包括机器出问题之后修复的工作量。智能是为了借助软件、机器学习算法的能力主动揭示IT元素内在的相关性,从而减轻运维人员在问题预知以及原因定位上的难度和工作量。
运维自动化同样是提升IT运维效率的一个方向,和大数据智能运维并不冲突,反而是相辅相成,作业、变更、交付、排障等的自动化能力建设不会因智能运维就可以不用做,但相辅相成是一定的,比如变更会导致指标等相关运维数据发生规律改变,大数据分析可以揭示在变更前后哪些IT元素指标受到影响发生了断崖式跳变,这些变化是否在变更影响分析范畴内等等。