活动简介
宕机年年有,今年特别多.2017年1-2月国外发生了2起宕机造成的严重的生产事故,造成的影响可想而知。
1)美联航在1月23日的Twitter消息中表示:“由于IT问题,所有国内航班都无法起飞。我们正在寻找解决方案,并对带来的不便表示歉意。”
2)Gitlab.com 因疲劳误删数据导致宕机超24小时,现已恢复.
2月1日GitLab.com 官方网站发布声明称由于其产品数据库问题导致的网站无法正常访问。据国外媒体报道称 Gitlab 网站疲惫的系统管理员深夜在进行数据库维护时,使用 rm -rf 删了300 GB 生产环境数据。等到清醒过来紧急按下ctrl + c,只有4.5GB保留下来。然后恢复备份失败,网站已经宕了10个小时还没恢复。
回头看这些年来发生的宕机事故,从公开的信息看有的发布了宕机原因,我大概总结了一下宕机因素:
1、机房环境(电力,空调,UPS)故障;
2、人为误操作;
3、硬件(服务器,存储,网络等)故障;
4、软件(操作系统,数据库,中间件等)故障;
5、bug(软件硬件);
6、程序(业务应用);
7、性能
宕机因素七宗罪几乎涵盖了宕机发生可能的原因,其中有些因素可控,有些不可控,我们更加关注可控的因素,比如2,3,4。出了问题如何在未来去避免才是我们最关心.但多数宕机原因都没详细的公开说明。我们这次就是要通过发生的案例去分析到底谁才是宕机的"元凶"。
礼品
本次活动结束后,将由活动嘉宾评选出优秀提问者,社区给予社区金币或微信红包奖励。
提问数达到30个,奖励10位优秀提问者;提问数达到50个,奖励20位提问者;提问数达到70个,奖励30位提问者。