TB级别的数据量,在系统层面需要考虑到三个方面
1. CPU和内存:特别要考虑cpu能力强,内存带宽大的系统
2. IO能力:无论是MR或者Spark,都会都大量的数据写入磁盘,所以IO往往会成为瓶颈,所以尽量多配置硬盘,有条件的可以配置SSD
3. 网络架构:1TB的数据量往往有多个进程或者多个节点,节点间的数据交换和通讯非常占用资源,建议使用万兆交换机或者infiniband系统
我们的日志系统是完全基于大数据开发的,数据量增大后,可以增加节点来扩展系统容量。另外,也对数据建立了索引,所以速度很快。
我们曾做过一个项目,保存90T数据,每天增加1T,使用了4台PowerLinux,资源还有大量冗余,速度很快。