大数据系统分为硬件系统和大数据组件。硬件系统一般为X86服务器,供应商的可选范围很广,参考配置如下。
用途 | 型号 | 处理器 | 内存 | 硬盘 | RAID | 操作系统 |
---|---|---|---|---|---|---|
Hadoop Name Node | X3650 M5 | Intel Xeon E5-2600 v3 18C | 144G | 14*T | RAID 5 | Red Hat Enterprise Linux 6.5 |
Hadoop Data Node | X3650 M5 | Intel Xeon E5-2600 v3 18C | 144G | 14*2T | NO RAID | Red Hat Enterprise Linux 6.5 |
Spark Core | X3650 M5 | Intel Xeon E5-2620 v4 8C | 256G | 4*1.2T | RAID 5 | Red Hat Enterprise Linux 6.8 |
Spark Streaming | X3650 M5 | Intel Xeon E5-2620 v4 8C | 256G | 4*1.2T | RAID 5 | Red Hat Enterprise Linux 6.8 |
Elasticsearch | X3650 M5 | Intel Xeon E5-2630 v3 8C | 128G | 4*1.2T | RAID 5 | Red Hat Enterprise Linux 6.8 |
Redis | X3650 M5 | Intel Xeon E5-2620 v4 8C | 256G | 4*960G | RAID 5 | Red Hat Enterprise Linux 6.8 |
Kakfa | X3650 M5 | Intel Xeon E5-2620 v4 8C | 64G | 4*960G | RAID 5 | Red Hat Enterprise Linux 6.8 |
Olap服务器 | X3650 M5 | Intel Xeon E5-2630 v4 10C | 256G | 4*1.2T | RAID 5 | Red Hat Enterprise Linux 6.8 |
报表服务器 | X3650 M5 | Intel Xeon E5-2640 v4 16C | 128G | 4*600G | RAID 5 | Red Hat Enterprise Linux 7 |
ETL服务器 | X3650 M5 | Intel Xeon E5-2620 v2 16C | 256G | 4*960G | RAID 5 | Red Hat Enterprise Linux 6.8 |
大数据组件可选择开源发行版或第三方商用发行版。
(1)开源发行版以Hadoop系统为核心,包含HDFS、Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等,可以按需求自行安装。开源发行版的优点在于完全开源免费以及公开的文档和资料比较丰富。缺点在于:
·版本管理复杂。各种版本层出不穷,依赖关系不清,难以升级运维。
·集群部署、安装、配置复杂。大量的集群配置文件需要分发到每一个节点上,容易出错,效率低下。
·集群运维复杂。对集群的监控、运维依赖第三方的其他软件,难度较大。
(2)国内和国外厂商提供易于使用的第三方发行版甚至一体化解决方案。国外著名的大数据平台供应商包括Cloudera、Hortonorks等。国内知名供应商包括华为、星环等。主流第三方发行版对比如下。