1、在企业内部,最好保证集群中所有机器的配置保持一直,否则容易出现一台机器运行较慢,从而拖慢整体任务运行速度的情况。
2、大数据平台对网络要求较高,在几十台机器的集群下,如果采用千兆网络,极其容易出现某一个大任务把带宽占满的情况。
3、平台对CPU、硬盘的需求相对网络要低点,但也不能太低,否则IO上不来,任务也会被拖慢。
4、平台对内存的要求高,尤其在一个平台内搭建Impala、Spark、MR、Hive、HBase等组件共享资源的情况下,更应该配备高内存。
Hadoop现在已经是大数据的事实标准,而 Hadoop的出现就是运行在廉价商用服务器上,以集群之力,分而治之地解决先前传统数据库、传统存储、传统计算模型束手无策的问题,让大规模数据的处理成为了可能
对于硬件没有太高的要求,普通的PC服务器即可,但是为了高更的性能,服务器内可以增加SSD固态硬盘或是内容等资源