针对目前的大数据模型的存储都是基于分布式的文件系统而且数据量极大,这些数据的保留以及归档方面,有何比较好的方案?
数据爆炸抛弃正确增长的原因外,一般都和生命周期的阶段规划有关。比如规划了在线和近线,最后没规划销毁,不管多少年的数据都存着,不敢删除,多少空间也禁不住。这种情况,大数据也适用。
所以还是要对数据进行规划分析,改销毁的销毁,访问率极低的做离线归档,以磁带的方式来保存。经过瘦身后,不光节省了空间,在线和近线数据的使用效率也会得到大幅度提升。
分布式云计算环境下的数据库或资源池化的数据归档,和传统方式相比,不再是简单的数据接入与转储。海量长期的数据归档需要考虑数据检索的效率,尽管TSM可以进行数据的备份与归档,包括分级的存储,重复利用,但面对大数据的归档,它的性能还是未知的。个人认为,分级存储管理方式是较理想的大数据环境下的归档备份模式。分级的管理涉及介质的迁移,需要考虑归档数据与介质的问题,要保证数据迁移与介质迁移过程中介质稳定性。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30