互联网服务云存储

在云时代,如何应对云端资料存储突发故障?

前些天,亚马逊Amazon S3发生故障中断,连带使数千个采用Amazon S3服务的网站受到波及,故障持续4小时。怎么解决这类问题?显示全部

前些天,亚马逊Amazon S3发生故障中断,连带使数千个采用Amazon S3服务的网站受到波及,故障持续4小时。怎么解决这类问题?

收起
参与81

查看其它 15 个回答zp_ccc的回答

zp_ccczp_ccc高级技术主管国内某金融科技公司

近几个月GitLab,Amazon S3,微软Azure相继出现丢数据和业务中断的事件,让人们对云服务提供商的数据安全和业务连续性能力提出了质疑。

通过一些列报道,可以了解到Gitlab和Amazon S3的事件多数是人为因素造成,误操作导致的事故发生。不论是云数据中心还是传统数据中心的运维团队,都应该重视数据安全。如何避免操作风险,需要通过制度,工具,人员培养等多方面加以规避。微软Azure事件官方称之为底层存储故障,但从另一层面发现Azure 的系统耦合性过高,Azure 存储故障,导致了例如Azure 媒体服务,缓存服务,搜索服务,数据库,事件中心等等十几个系统不能提供正常服务。

数据安全涵盖的范围很广,数据的备份是防止数据丢失的手段。GitLab做的已经很好,充分理解了不能只通过一种备份手段来保护数据,但是忽略了恢复的有效性,当备份数据需要恢复的时候才发现多份备份均无效,这给很多IT系统运维人员敲响了警钟,定期的恢复验证工作不能流于型式,事关真正灾难发生时是否能够成功恢复。

云环境下资源以共享为主,共享资源的同时,意味着共享了风险。评估资源间的依赖关系,适当地对资源间进行解耦,减少资源的关联风险。对关键资源进行高可用性保护,确保持续运行。资源池化并非范围越大越好,正所谓月满则亏,水满自溢,要设置可控度。

互联网服务 · 2017-03-18
浏览4231

回答者

zp_ccc
zp_ccc1615
高级技术主管国内某金融科技公司
擅长领域: 存储灾备服务器

zp_ccc 最近回答过的问题

回答状态

  • 发布时间:2017-03-18
  • 关注会员:17 人
  • 回答浏览:4231
  • X社区推广