大数据平台里面的数据有几个特点:
1. 数据量巨大:海量
2. 数据结构类型复杂多样:结构化、非结构化、半结构化 ...
3. 数据功能分多个层次:基础数据,初步架构数据,深度加工数据,分析结果数据 ...
4. 来源众多:内部各应用下沉的基础数据,外部引入的基础数据 ...
正是因为以上这几个特点并存,很难有一个万能的备份平台来完成对大数据平台内所有数据的备份恢复工作。所以个人认为对于大数据平台内的数据,需要明确两个问题:
1. 数据有没有备份的必要?
例如:如果我们的基础数据是可以随时从源头调用,而源头又有完善的备份机制,那么必要性就没那么强了。
3. 平台内的数据,是不是可以分级分类?
例如:有些经过复杂加工之后的数据,是不是可以切分出来,单独进行备份,而大量的基础数据就没必要备份了。