hbase和hdfs的较大区别:
1、hbase支持更新,而hdfs文件不支持
2、hbase对于特定的查询场景,性能极高,而hdfs需要分目录存储,以便使用hive或impala的分区特性
我们现在对于两者的权衡主要在于第一点,原因是我们现在对于业务库的采集是通过数据库日志获取的实时数据,如果该表存着更新的可能,我们会优先考虑将数据存在hbase中,如果数据绝对不会更新,我们会采用分目录的方式存储数据。使用hdfs文件存储的好处是,建立了hive或impala表后,多维度的查询性能要由于高于hbase的查询。两者的使用需要根据数据情况进行取舍。现在新产生了一种存储,kudu,是一种支持更新的表存储方式,可以某些程度上统一hdfs和hbase两种存储,但是还需要进一步测试。