大数据技术的事件处理上应该如何选择Linux服务器？

大数据技术的事件处理，在系统资源使用上，需要很强的计算能力，如何选择Linux服务器？

参与20

8同行回答
全部行业
全部行业 电信运营商 互联网服务 银行
|
按赞同排序
按时间排序

loveryue软件开发工程师IBM

正如您所说，确实要根据场景来判断。

目前整体来看，大数据无论采用MR或者Spark，都牵扯到了，大量的迭代计算和suffling，对CPU有很高的要求。所以，从硬件选型来看，首先，CPU的计算能力最为重要，这也是为什么Power8 的Linux的服务器在MR或者SPARK上有很好的表现。

其次，对于批处理方面的计算，可以把CPU的多线程的特征关闭，以减少CPU调度上的开销。

还有，就是考虑CPU到cahce，CPU到内存，CPU到IO的内部带宽通道，这好比高速公路，路越宽，通行能力越强。

最后，IO还是要考虑的，MR的suffing落盘，Spark的可落可不落，所以多个磁盘驱动器也很重要。

所以，Power8的linux服务器是大数据的领先服务器。

收起

互联网服务 · 2015-11-06

查看赞同的人

humidy信息分析/架构师某公司

作为一个Hadoop管理员或架构师，集群实现的实战部分从决定需要使用哪一种硬件，以及需要的硬件数量开始。但是在这之前有一些必要的问题需要得到解答。这些问题中有集群设计相关的，像集群需要存储多少的数据，数据的增长率是多少，主要的数据访问模式是什么，集群是不是用于预定的任务调度，是不是一个用于数据分析探索的多用户环境？

同时，一些集群为了更好的用于专门的特定工作，需要在硬件方面专门的考虑一些因数。当规划使用数百台服务器的时候，关于硬件的初始决定和总体布局将会极大的影响集群的性能、稳定性和相关费用。

问模式是什么，集群是不是用于预定的任务调度，是不是一个用于数据分析探索的多用户环境？

总所周知，组成Hadoop集群的服务器有很多种类型。比如主控节点，如NameNode，Secondary NameNode和JobTracker；工作节点被称为DataNodes；除了核心的Hadoop组件服务器，通常我们会部署一些辅助服务器，如网关(Gateways)、Hue服务器以及Hive元服务器。

因为这些类型的服务器在集群中的角色不同，所以对于硬件规格和可靠性的要求也不同。接下来我们会讨论DataNode、NameNode、Jobtracker不同节点的不同硬件需求和选择。

辅助服务器，如网关(Gateways)、Hue服务器以及Hive元服务器。

收起

电信运营商 · 2015-11-06

查看赞同的人