智能化运维是自动化运维的新阶段,可以说是自动化运维向无人化运维转型的必经之路,如果狭义的自动化是将人工操作的流程让机器替代去实现,那智能化就是在此基础上增加了机器的“思维”。这个“思维”来源于通过算法对大量
感谢楼上解答。补充一些个人看法吧,小规模企业在向智能化运维的发展过程首先需要考虑企业自身运维的需要,智能运维可以降低人工操作的风险,提供更多个性化的系统画像,减少运维人力节省成本等。在进行智能运维和大数据运维
我们认为智能化运维是可以检测出一些代码问题和潜在风险的,但全自动化解决还是存在很多困难。代码级问题也可以在日常监控中识别到,但需要通过人工去确认和进行修改或优化。例如我们有过一些对数据库日志快照中记录的执
困难有很多,主要分数据、算法、平台三个方面吧。首先是数据采集方面主要是各类日志数据需要进行统一,海量的运维数据需要大量存储资源等。在做智能化算法初期,主要是缺少对历史异常数据的记录和日志数据格式的统一,通过无
生产系统的智能化+自动化故障处理前期建议将智能化处置结果通过审批流程经过人工二次审核通过后再接入自动化的处理,经过一段时间优化,当智能化的处理结果能与专家评定基本达成一致时,运维达到很高的自愈能力时,对于重要
算法选择方面首先需要按照已知的监控数据的特性和目标进行大类的划分,前期对数据的摸底和基础分析非常重要。机器学习的目的大致分为回归、分类和聚类这几种,又可以根据有无异常或其他评分标签使用有监督或者无监督的算
告警本身是轻量级的程序,模型需要对大量的历史数据进行学习,如果存在时效性问题,还是要分清是由什么带来的,如果确实模型训练耗时真的非常严重,建议采用更高配置的GPU服务器。告警收敛需要结合聚类算法和专家经验进行,具体
在做智能化算法初期,主要是缺少对历史异常数据的记录和日志数据格式的统一,通过无监督学习算法对未标注数据进行异常检测后难以判定是否有误告或者漏报的情况,短时间很难提高算法的准确性。为此我们经过了很长一段时间的
在数据采集的过程中,由于各个监控系统对系统日志、数据库日志和应用日志等采集的时间点和频率都不相同,针对各个监控系统的指标,我们按照较粗粒度的监控记录进行了时间段的划分,再将时间粒度较小的指标数据进行了汇总处理
时间序列模型是比较简单的用于做时间序列类数据的回归算法,相比基于RNN神经网络的LSTM在计算复杂度上较低,可以快速学习变化的数据,一般适合用于单指标的预测分析。LSTM经过训练后在大部分数据预测的准确度上要优于时间
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30