电信运营商Hadoop spark 大数据处理

Hadoop/spark等大数据处理平台对服务器的配置要求和最佳实践

Hadoop/storm/spark等大数据处理平台对服务器的配置要求和最佳实践，比如CPU/内存/磁盘/IO等.
希望专家能把要求给详细说说，还有就是如果有一些参考实践的内容

关注2

参与6

4同行回答
全部行业
全部行业 银行 互联网服务 软件开发 保险
|
按赞同排序
按时间排序

zchunlin系统架构师阳光保险

关于hadoop、spark、storm的配置和最佳实践的具体文档？收起

保险 · 2015-07-09

phanx系统工程师银行

回复 3# liucx

Hadoop平台网络尽量考虑万兆。节点间的流量大，千兆会成为瓶颈。
你可以阅读一下Cloudera的这篇Blog。 Cloudera是Hadoop的一个企业发行版厂商，Cloudera和Hadoop的关系类似Redhat和Linux的关系。

How-to: Select the Right Hardware for Your New Hadoop Cluster
http://blog.cloudera.com/blog/20 ... new-hadoop-cluster/收起

银行 · 2015-06-20

liucx研发工程师rj

建议使用Hadoop Hbase,Spark系统需要消耗大量磁盘和内存，服务器选择 2*8 核心,>128G内存,6-12*2T磁盘，双 ...
tongxiaojun 发表于 2015-6-4 15:07

为什么是双网卡千M？能提高网络io么，服务器选择 2*8 核心,>128G内存,6-12*2T磁盘，双网卡千M，这样的配置服务器在什么价位？谢谢收起

软件开发 · 2015-06-17

tongxiaojun技术总监北京红象云腾系统技术有限公司

建议使用Hadoop Hbase,Spark系统需要消耗大量磁盘和内存，服务器选择 2*8 核心,>128G内存,6-12*2T磁盘，双网卡千M。
跑MapReduce的服务器一般配置多个磁盘,6-12个,数据节点做raid0直接挂在不要做raid5。通过 hdfs-site.xml 配置 dfs.data.dir=/disk1/hadoop/hdfs/data,/disk2/hadoop/hdfs/data,/diskN/hadoop/hdfs/data 支持多个磁盘,通过配置 yarn.nodemanager.local-dirs=/disk1/hadoop/yarn/local,/disk2/hadoop/yarn/local,/diskN/hadoop/yarn/local为多个磁盘。收起

互联网服务 · 2015-06-04

Hadoop/spark等大数据处理平台对服务器的配置要求和最佳实践

4同行回答
全部行业
全部行业 银行 互联网服务 软件开发 保险
|
按赞同排序
按时间排序

提问者

相关问题

相关资料

相关文章

问题状态

Hadoop/spark等大数据处理平台对服务器的配置要求和最佳实践

4同行回答全部行业全部行业银行互联网服务软件开发保险|按赞同排序按时间排序

提问者

相关问题

相关资料

相关文章

问题状态

4同行回答
全部行业
全部行业银行互联网服务软件开发保险
|
按赞同排序
按时间排序