互联网服务云存储

在云时代，如何应对云端资料存储突发故障？

前些天，亚马逊Amazon S3发生故障中断，连带使数千个采用Amazon S3服务的网站受到波及，故障持续4小时。怎么解决这类问题？

收起

关注17

参与81

查看其它 15 个回答zp_ccc的回答

zp_ccc高级技术主管国内某金融科技公司

近几个月GitLab，Amazon S3，微软Azure相继出现丢数据和业务中断的事件，让人们对云服务提供商的数据安全和业务连续性能力提出了质疑。

通过一些列报道，可以了解到Gitlab和Amazon S3的事件多数是人为因素造成，误操作导致的事故发生。不论是云数据中心还是传统数据中心的运维团队，都应该重视数据安全。如何避免操作风险，需要通过制度，工具，人员培养等多方面加以规避。微软Azure事件官方称之为底层存储故障，但从另一层面发现Azure 的系统耦合性过高，Azure 存储故障，导致了例如Azure 媒体服务，缓存服务，搜索服务，数据库，事件中心等等十几个系统不能提供正常服务。

数据安全涵盖的范围很广，数据的备份是防止数据丢失的手段。GitLab做的已经很好，充分理解了不能只通过一种备份手段来保护数据，但是忽略了恢复的有效性，当备份数据需要恢复的时候才发现多份备份均无效，这给很多IT系统运维人员敲响了警钟，定期的恢复验证工作不能流于型式，事关真正灾难发生时是否能够成功恢复。

云环境下资源以共享为主，共享资源的同时，意味着共享了风险。评估资源间的依赖关系，适当地对资源间进行解耦，减少资源的关联风险。对关键资源进行高可用性保护，确保持续运行。资源池化并非范围越大越好，正所谓月满则亏,水满自溢，要设置可控度。

互联网服务 · 2017-03-18

查看赞同的人

在云时代，如何应对云端资料存储突发故障？

查看其它 15 个回答zp_ccc的回答

回答者

zp_ccc 最近回答过的问题

回答状态