运维操作的原理要有清晰明确,包括自动化工具使用的相关手册要写清楚,避免日子久了都习惯用自动化工具没人能说清原理了。工具出问题了必要时候还是得上手尽快完成操作,恢复业务,自动化是为了提供便利,不是为了完全取代人;
自动化脚本或者程序要有规范,要有比较详细的日志,出问题能快速的定位是哪出了问题,从哪儿开始出了差错;
自动化工具在设计的时候就要考虑一些能想到的意外情况,增强容错性,多一些必要的检测,当条件不满足时候可以停下来报警提示;
做好备份体系,有快速切换方案,减少业务影响时间;
要有Plan B。