结构化数据的分布式存储,实际上就是分布式关系型数据库的存储,使用的2pc或3pc的提交模式,现在比较知名的是TiDB和阿里Oceandb,其中TiDB是使用 raft协议+RocksDB.从中我们可以看到,为了保证结构化数据的事物一致性,这类数据的分布式存储最佳就是选用raft架构。
非结构化数据,大都是非关系型数据库,只要保证数据的最终一致性,一致性的要求比较低,所以比较自由hdfs、gfs、glancefs都可以选择,最简单的就是hive,你可以把它理解成为一个非结构化数据仓库,底层是对hdfs等分布式存储的的读写。