大数据系统灾备的选择

由于大数据集群本身就有数据的冗余，还需要考虑数据灾备吗？如果需要怎么设计？还有大数据应用需要做到应用级别的灾备吗？

参与3

返回美国队长的回答

美国队长研发工程师Alibaba

大数据系统的灾备要求是根据不同的场景来定，比如数据业务要求比较高，那最好还是另外搞一个专门对系统数据进行备份，虽然大数据比如hdfs系统有多个版本的手段来防止数据丢失，但是毕竟这个冗余是建立在hadoop自身的一堆的通信基础上，如果这个通信出了异常你又没法恢复的时候，那hdfs自身的冗余版本对你也没有用，我说这句话的意思就是，数据冗余尽量做的简单点目的就是简单存储。

谈到如何设计，比如可以单独准备一下存储比较大的服务器来存放这些数据，每天有定时任务执行数据同步过来，好一点的话，再加个监控，监控数据同步是否准确防止网络传输超时丢失数据，当然这只是其中一个方法还有很多其他方法，我的建议是既然是数据冗余越简单越安全越好

最后一个问题应用级别的我不是很明白是什么意思，还请举个例子？

谢谢

互联网服务 · 2017-04-21

大数据系统灾备的选择

返回美国队长的回答

回答者

美国队长最近回答过的问题

回答状态

大数据系统灾备的选择

返回美国队长的回答

回答者

美国队长 最近回答过的问题

回答状态

美国队长最近回答过的问题