大数据系统灾备的选择

由于大数据集群本身就有数据的冗余,还需要考虑数据灾备吗?如果需要怎么设计?还有大数据应用需要做到应用级别的灾备吗?显示全部

由于大数据集群本身就有数据的冗余,还需要考虑数据灾备吗?如果需要怎么设计?还有大数据应用需要做到应用级别的灾备吗?

收起
参与3

返回美国队长的回答

美国队长美国队长研发工程师Alibaba

大数据系统的灾备要求是根据不同的场景来定,比如数据业务要求比较高,那最好还是另外搞一个专门对系统数据进行备份,虽然大数据比如hdfs系统有多个版本的手段来防止数据丢失,但是毕竟这个冗余是建立在hadoop自身的一堆的通信基础上,如果这个通信出了异常你又没法恢复的时候,那hdfs自身的冗余版本对你也没有用,我说这句话的意思就是,数据冗余尽量做的简单点目的就是简单存储。

谈到如何设计,比如可以单独准备一下存储比较大的服务器来存放这些数据,每天有定时任务执行数据同步过来,好一点的话,再加个监控,监控数据同步是否准确防止网络传输超时丢失数据,当然这只是其中一个方法还有很多其他方法,我的建议是既然是数据冗余越简单越安全越好


最后一个问题应用级别的我不是很明白是什么意思,还请举个例子?


谢谢

互联网服务 · 2017-04-21
浏览1456

回答者

美国队长
研发工程师Alibaba
擅长领域: 大数据大数据平台数据库

美国队长 最近回答过的问题

回答状态

  • 发布时间:2017-04-21
  • 关注会员:2 人
  • 回答浏览:1456
  • X社区推广