这个问题确实有点宽泛,涉及的内容也非常多,如果涉及linux系统运维方面可以简单分为几类:
1.网络 .2.内存 3.CPU 4.IO 。。。。。
每一块都涉及大量的工具,每个人的使用偏好都有所不同,掌握的工具也有所区别,有一张图非常的不错,这里分享给你
还有大量的开源小工具,你可以选择自己合适的加以使用,例如puppet,ansible, 最好能够掌握python和sshell 编程,太多的东西需要慢慢消化,合适自己的就好。
至于说故障诊断处理方面这也不是一两句话就可以说的清楚,很大程度上在于平时经验的积累,很多故障都是相互关联的,如何顺藤摸瓜,找到问题的最终原因。
一点经验分享一下:
1.平时要多问几个为什么
2.故障是否可以重现,找到第一个场景,关注整体结合细节
3.多方面相互参考,同事之间相互配合