分布式存储的数据保护机制还是很全面的,可以分几个维度来看:
基础数据保护:数据多副本和EC纠删码技术,EC纠删码还有特殊的支持缩列等方案;基于基础的数据保护,引入故障域的概念,可以从硬盘到节点到机柜到数据中心设定故障域,域间数据相互没有影响;
被动数据保护:主要是指周期性的物理磁盘和逻辑块单位的扫描,及时发现坏块或坏单位,进行自动修复,避免静默错误导致数据丢失;比较好的做法是在写入和存放时都加入校验技术,保障应用、缓存和落盘数据一致;
主动数据保护:基于块和文件的快照,基于对象的快照和多版本,这里ROW快照和压缩去重技术已经广泛应用,与传统存储无二;各种异步复制技术,不管是针对块、文件还是对象,异步复制技术也已经非常成熟;分布式存储的数据分层技术相比传统存储起步更早,可以根据数据生命周期在各层级存储之间自动流动,事实上也可作为一种多副本的数据保护方式;还有基于快照的克隆,多卷统一快照,归档等等,保证数据一致性的同时搞定本地和异地备份;
高级数据保护:分布式存储同样可以做到数据双活,一搬块和文件存储是在池级别实现,通过延展集群的方式进行同城部署;对象存储可以配置多站点模式,直接实现元数据多活,如果配合底层的延展集群,可以做到RPO和RTO均等于0;
收起主要有两类:
1、性能提升类的,如:智能分层技术、智能缓存技术、QOS等;
2、数据保护类的,如:快照、克隆、CDP、同步/异步复制、双活等
分布式存储相对于集中式存储,在数据保护机制方面,还是有所欠缺的,毕竟集中式存储存在发展了这么多年,在数据保护机制方面已经做的非常成熟了,比如快照、复制、双活、端到端检验等,分布式存储近几年才开始发展壮大,其优点在于大容量和经灵活的可扩展性,在数据保护机制方面还需要继续补齐相关能力,比如文件的同步复制,没有几家分布式存储厂商可以做到。
收起存储数据保护机制主要有以下几种:
1、数据校验:硬盘级别,原理是每一段数据设置一个checksum校验位,每次读写做校验,防止数据发生静默损坏,集中式和分布式存储都有应用;
2、多副本、RAID / EC: 节点级别,绝大多数分布式存储使用多副本技术,几乎所有集中式存储使用RAID / EC 技术,两种技术各有千秋;
3、机架感知:机架级别,分布式存储应用较多,数据副本可按机架分布,冗余机架整体故障;
4、双活:数据中心级别,RPO=0,集中式存储使用同步复制技术,分布式存储使用拉伸集群,叫法不一,但原理类似;
5、异步复制:数据中心级别,RPO通常是秒级或分钟级;
收起