互联网行业,大多是走hadoop/spark/storm/EK流。
MPP和Hadoop,罗列如下几点,可供选型参考:
MPP | Hadoop | |
---|---|---|
数据规模 | TB级 | PB级 |
扩展能力 | 较低,单集群规模一般在100-节点 | 较高,单集群规模可达4k-5k节点 |
复杂查询分析性能 | 较高 | 较低 |
响应实时性 | 较高 | 较低 |
数据类型 | 结构化 | 结构化+非结构化 |
开发门槛 | 低,基于SQL | 较高,基于MR |
采购成本 | 高,商业 | 低,开源 |
因此,Hadoop适用于海量数据(PB+级),节点规模大(百+级),高并发(百+级),且数据分析场景简单的需求。
MPP则相反。
另外如果是非结构化数据需求,MPP就别考虑了。