前些天,亚马逊Amazon S3发生故障中断,连带使数千个采用Amazon S3服务的网站受到波及,故障持续4小时。怎么解决这类问题?
近几个月GitLab,Amazon S3,微软Azure相继出现丢数据和业务中断的事件,让人们对云服务提供商的数据安全和业务连续性能力提出了质疑。
通过一些列报道,可以了解到Gitlab和Amazon S3的事件多数是人为因素造成,误操作导致的事故发生。不论是云数据中心还是传统数据中心的运维团队,都应该重视数据安全。如何避免操作风险,需要通过制度,工具,人员培养等多方面加以规避。微软Azure事件官方称之为底层存储故障,但从另一层面发现Azure 的系统耦合性过高,Azure 存储故障,导致了例如Azure 媒体服务,缓存服务,搜索服务,数据库,事件中心等等十几个系统不能提供正常服务。
数据安全涵盖的范围很广,数据的备份是防止数据丢失的手段。GitLab做的已经很好,充分理解了不能只通过一种备份手段来保护数据,但是忽略了恢复的有效性,当备份数据需要恢复的时候才发现多份备份均无效,这给很多IT系统运维人员敲响了警钟,定期的恢复验证工作不能流于型式,事关真正灾难发生时是否能够成功恢复。
云环境下资源以共享为主,共享资源的同时,意味着共享了风险。评估资源间的依赖关系,适当地对资源间进行解耦,减少资源的关联风险。对关键资源进行高可用性保护,确保持续运行。资源池化并非范围越大越好,正所谓月满则亏,水满自溢,要设置可控度。