在云时代,如何应对云端资料存储突发故障?

前些天,亚马逊Amazon S3发生故障中断,连带使数千个采用Amazon S3服务的网站受到波及,故障持续4小时。怎么解决这类问题?

16回答

dulantedulante  软件开发工程师 , 北京酷吧科技有限公司
allwithwclshiners等赞同了此回答
原理很简单,就是不要把鸡蛋放在同一个篮子里,分散到不同的云提供商,在不同的云平台之间部署应用程序。要打破企业存储上不同存储阵列之间的兼容性壁垒,例如通过FreeStor实现“云间跳转”:可以将数据在不同的云,如Amazon和微软Azure之间,实现数据的复制、保护和迁移。用户可以让...显示全部

原理很简单,就是不要把鸡蛋放在同一个篮子里,分散到不同的云提供商,在不同的云平台之间部署应用程序。

要打破企业存储上不同存储阵列之间的兼容性壁垒,例如通过FreeStor实现“云间跳转”:可以将数据在不同的云,如Amazon和微软Azure之间,实现数据的复制、保护和迁移。用户可以让数据通过FreeStor实现在不同的云之间进行快照或者复制,一旦一个云出现故障,可以立刻用另一个云实现接管,而不会对业务产生重大影响。这种体验就跟用户一直在用的异地双活和容灾是一样的。
云间跳转的功能不但可以避免由于云服务商的停机造成损失,还有一个好处,就是可以给用户与这些云提供商议价的优势。如果云的服务质量不满足要求,或者云的价格不能让客户满意,用户随时点几下鼠标,就可以迁移到新的云上去。这就如同原来的多厂商采购策略一样,不会被任何一个供应商绑架。

收起
 2017-03-17
飞奔的T飞奔的T  软件开发工程师 , 德卡科技
二蛋回家吃饭liumangpigaixkevin等赞同了此回答
[此回答已删除]
info2softinfo2soft  it技术咨询顾问 , 英方股份
二蛋回家吃饭aixkevinliumangpig等赞同了此回答
[此回答已删除]
hlszhlsz  其它 , 某省农信
信息孤岛liumangpigaixkevin等赞同了此回答
首先,在我们金融行业,考虑到金融安全、监管政策和社会影响等原因,关键业务系统估计没有几个敢上公有云的,毕竟命运还是在自己手里比较踏实。这样的情况下,能上公有云的应该是业务连续性要求不高的应用系统,自然不存在题主的问题了。回到问题,如果选择了公有云,还想要自己完全控制...显示全部

首先,在我们金融行业,考虑到金融安全、监管政策和社会影响等原因,关键业务系统估计没有几个敢上公有云的,毕竟命运还是在自己手里比较踏实。这样的情况下,能上公有云的应该是业务连续性要求不高的应用系统,自然不存在题主的问题了。

回到问题,如果选择了公有云,还想要自己完全控制业务连续性,有几点建议:一、尽量减少技术绑定,只使用基础功能,不使用厂商的特有功能,比如只用IaaS就好了,别想PaaS、SaaS那些事情;二、使用多厂商云服务,同时采用数据复制技术保证数据一致;三、考虑混合云,理论上是可以规避一些风险的。

收起
 2017-03-17
kakakaiikakakaii  项目经理 , 某国企集成商
liumangpigaixkevinmaxh666_cn赞同了此回答
说繁也烦,说简单也简单,鸡蛋放在多个篮子的比喻不恰当,随便哪个篮子砸了,那篮子蛋还是碎掉了。所以说,数据放在不同运营商,能解决你的负载问题,至于容灾则是要有2份或者以上数据放在不同的运营商那里。这就是我们常说的灾备,灾备环境的好坏,容灾级别高低,直接影响在线系统的。这个...显示全部

说繁也烦,说简单也简单,鸡蛋放在多个篮子的比喻不恰当,随便哪个篮子砸了,那篮子蛋还是碎掉了。所以说,数据放在不同运营商,能解决你的负载问题,至于容灾则是要有2份或者以上数据放在不同的运营商那里。这就是我们常说的灾备,灾备环境的好坏,容灾级别高低,直接影响在线系统的。这个就要看业务方到底要做到什么程度。这个业务方有义务在建设期建需求搞清楚。

收起
 2017-03-17
yangsuhuayangsuhua  存储架构师 , 浪潮信息
liumangpigaixkevin赞同了此回答
我认为这与云服务供应商所供应的服务等级SLA有关。在高级别的服务等级,应当包括应对突发故障的故障转移服务。如若想要摆脱单一厂商的局限性,现在有许多做DR as a service的公司,可以了解一下。但是这会增加额外的容灾成本。...显示全部

我认为这与云服务供应商所供应的服务等级SLA有关。在高级别的服务等级,应当包括应对突发故障的故障转移服务。如若想要摆脱单一厂商的局限性,现在有许多做DR as a service的公司,可以了解一下。但是这会增加额外的容灾成本。

收起
 2017-03-17
asdf-asdfasdf-asdf  软件开发工程师 , its
aixkevinliumangpig赞同了此回答
使用多个 云公司产品  然后自建最小基础的 业务系统使用两个以上 云产品  部署业务  并在自己公司创建 最小业务系统  进行备份如果你的业务非常重要   上面的部署计划还是必须的单一的云公司   一定会有 ...显示全部

使用多个 云公司产品  然后自建最小基础的 业务系统

使用两个以上 云产品  部署业务  

并在自己公司创建 最小业务系统  进行备份

如果你的业务非常重要   上面的部署计划还是必须的

单一的云公司   一定会有 宕机时间

如果按照  三份业务备份部署    业务停止率会很小

但这样给开发和运维带来复杂的环境配置考验.

业务要做分布式    数据 要做复制   

收起
 2017-03-17
张鹏张鹏  技术总监 , 中国金融电子化公司
飞奔的Taixkevin赞同了此回答
近几个月GitLab,Amazon S3,微软Azure相继出现丢数据和业务中断的事件,让人们对云服务提供商的数据安全和业务连续性能力提出了质疑。通过一些列报道,可以了解到Gitlab和Amazon S3的事件多数是人为因素造成,误操作导致的事故发生。不论是云数据中心还是传统数据中心的运维团队,...显示全部

近几个月GitLab,Amazon S3,微软Azure相继出现丢数据和业务中断的事件,让人们对云服务提供商的数据安全和业务连续性能力提出了质疑。

通过一些列报道,可以了解到Gitlab和Amazon S3的事件多数是人为因素造成,误操作导致的事故发生。不论是云数据中心还是传统数据中心的运维团队,都应该重视数据安全。如何避免操作风险,需要通过制度,工具,人员培养等多方面加以规避。微软Azure事件官方称之为底层存储故障,但从另一层面发现Azure 的系统耦合性过高,Azure 存储故障,导致了例如Azure 媒体服务,缓存服务,搜索服务,数据库,事件中心等等十几个系统不能提供正常服务。

数据安全涵盖的范围很广,数据的备份是防止数据丢失的手段。GitLab做的已经很好,充分理解了不能只通过一种备份手段来保护数据,但是忽略了恢复的有效性,当备份数据需要恢复的时候才发现多份备份均无效,这给很多IT系统运维人员敲响了警钟,定期的恢复验证工作不能流于型式,事关真正灾难发生时是否能够成功恢复。

云环境下资源以共享为主,共享资源的同时,意味着共享了风险。评估资源间的依赖关系,适当地对资源间进行解耦,减少资源的关联风险。对关键资源进行高可用性保护,确保持续运行。资源池化并非范围越大越好,正所谓月满则亏,水满自溢,要设置可控度。

收起
 2017-03-18
刘东刘东  it技术咨询顾问 , 东软集团
abby00aixkevin赞同了此回答
从近期的几个公有云服务故障来看,单独依靠公有云提供的服务确实不靠谱。如果公有云的可靠性得不到保障,那么用户的业务就会中端,所以说靠人不如靠自己,不能总是把自己公司的业务安全完全交付给别人来做,要有应急预案和应对的措施。个人建议通过以下3个措施进行应对,但是这三个...显示全部

从近期的几个公有云服务故障来看,单独依靠公有云提供的服务确实不靠谱。如果公有云的可靠性得不到保障,那么用户的业务就会中端,所以说靠人不如靠自己,不能总是把自己公司的业务安全完全交付给别人来做,要有应急预案和应对的措施。个人建议通过以下3个措施进行应对,但是这三个方案有利有弊,需要根据实际情况选择。

1、建设自己的私有云,数据先在本地数据中心进行保存,然后再同步上传到公有云上,这样即使公有云出现问题也不会害怕丢失数据。而且公有云出现业务中断,也可以立即将业务切换到私有云上,对外提供服务。

缺点:企业需要自己搭建一套系统,浪费资源。在公有云不能提供服务时,自建的私有云在性能上可能无法满足,影响用户体验。

2、选择多个公有云服务上。部署云灾备,至少选择2家公有云服务上,计算和存储资源都一样,但是平时业务只运行在一个公有云服务商之上,如果一个公有云出现问题,立即切换到另外一个公有云上。

缺点:会增加一套公有云服务成本,两个云之间的数据同步需要购买专业的数据同步产品和服务。

3、在本地建设私有云备份服务器,实时将数据备份至本地数据中心。保证数据不丢失和业务不中断。

缺点:本地增加一套备份系统,但是相对前二个方案,成本增加相对比较小。只建设本地数据备份系统,只能保证数据安全,可能无法及时对外提供服务。

收起
 2017-03-19
冷学峰冷学峰  其它 , 铁岭市社保信息中心
飞奔的Taixkevin赞同了此回答
真对最近一段时间内几个重量级的公有云连续出现问题,也谈谈自己的想法。我想从安全角度谈谈我的一点想法:1、安全要求里有一个观点或者认识,就是安全是相对的,危险是绝对的。所以不论从用户角度还是运营商角度来说都不应该掉以轻心。不论是用户在选择何种公有云的时候,还是运...显示全部

真对最近一段时间内几个重量级的公有云连续出现问题,也谈谈自己的想法。我想从安全角度谈谈我的一点想法:

1、安全要求里有一个观点或者认识,就是安全是相对的,危险是绝对的。所以不论从用户角度还是运营商角度来说都不应该掉以轻心。不论是用户在选择何种公有云的时候,还是运营商在建设和运营以及管理时都应该有这个意识;在用户选择公有云的形式上应该多从可靠性方面予以考虑;运营商从此类故障的出现上也应该认识到不论是建设或者运营还有很多工作要研究,要完善。因此日常建设管理运行工作就必须倍加认真细致。

2、安全里边还有一个最小必须原则。它本意是指“最小特权原则,是指"应限定网络中每个主体所必须的最小特权,确保可能的事故、错误、网络部件的篡改等原因造成的损失最小"。”我这里有个想法,可否在公有云之外,在保障数据的基础上(公有云环境下的数据,一般都相对较小),搭建一个最小的,但可以满足必须业务的传统系统应用(测试)环境,在出现类似公有云问题时,可以切换回来,不至于使全系统瘫痪,影响范围这么大。

收起
 2017-03-19

提问者

avril024数据库运维工程师, 北京同为科技有限公司

问题状态

  • 发布时间:2017-03-17
  • 关注会员:17 人
  • 问题浏览:2002
  • 最近回答:2017-03-19
  • 关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
    © 2017 talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30