大数据技术的事件处理上应该如何选择Linux服务器?

大数据技术的事件处理,在系统资源使用上,需要很强的计算能力,如何选择Linux服务器?

参与20

8同行回答

loveryueloveryue软件开发工程师IBM
正如您所说,确实要根据场景来判断。目前整体来看,大数据无论采用MR或者Spark,都牵扯到了,大量的迭代计算和suffling,对CPU有很高的要求。所以,从硬件选型来看,首先,CPU的计算能力最为重要,这也是为什么Power8 的Linux的服务器在MR或者SPARK上有很好的表现。其次,对于批处理方面的计...显示全部

正如您所说,确实要根据场景来判断。

目前整体来看,大数据无论采用MR或者Spark,都牵扯到了,大量的迭代计算和suffling,对CPU有很高的要求。所以,从硬件选型来看,首先,CPU的计算能力最为重要,这也是为什么Power8 的Linux的服务器在MR或者SPARK上有很好的表现。

其次,对于批处理方面的计算,可以把CPU的多线程的特征关闭,以减少CPU调度上的开销。

还有,就是考虑CPU到cahce,CPU到内存,CPU到IO的内部带宽通道,这好比高速公路,路越宽,通行能力越强。

最后,IO还是要考虑的,MR的suffing落盘,Spark的可落可不落,所以多个磁盘驱动器也很重要。

所以,Power8的linux服务器是大数据的领先服务器。

收起
互联网服务 · 2015-11-06
浏览3011
humidyhumidy信息分析/架构师某公司
作为一个Hadoop管理员或架构师,集群实现的实战部分从决定需要使用哪一种硬件,以及需要的硬件数量开始。但是在这之前有一些必要的问题需要得到解答。这些问题中有集群设计相关的,像集群需要存储多少的数据,数据的增长率是多少,主要的数据访问模式是什么,集群是不是用于预定的任...显示全部

作为一个Hadoop管理员或架构师,集群实现的实战部分从决定需要使用哪一种硬件,以及需要的硬件数量开始。但是在这之前有一些必要的问题需要得到解答。这些问题中有集群设计相关的,像集群需要存储多少的数据,数据的增长率是多少,主要的数据访问模式是什么,集群是不是用于预定的任务调度,是不是一个用于数据分析探索的多用户环境?

同时,一些集群为了更好的用于专门的特定工作,需要在硬件方面专门的考虑一些因数。当规划使用数百台服务器的时候,关于硬件的初始决定和总体布局将会极大的影响集群的性能、稳定性和相关费用。

问模式是什么,集群是不是用于预定的任务调度,是不是一个用于数据分析探索的多用户环境?

总所周知,组成Hadoop集群的服务器有很多种类型。比如主控节点,如NameNode,Secondary NameNode和JobTracker;工作节点被称为DataNodes;除了核心的Hadoop组件服务器,通常我们会部署一些辅助服务器,如网关(Gateways)、Hue服务器以及Hive元服务器。


因为这些类型的服务器在集群中的角色不同,所以对于硬件规格和可靠性的要求也不同。接下来我们会讨论DataNode、NameNode、Jobtracker不同节点的不同硬件需求和选择。

辅助服务器,如网关(Gateways)、Hue服务器以及Hive元服务器。

收起
电信运营商 · 2015-11-06
浏览2699
wang_fengwang_feng软件架构设计师威海市商业银行
linux服务器部署的集群,是不是要考虑一下数据的增长量,一般PC server的更换年限是3到5年,如果数据量增长不是特别快,计算量也不是特别大,在服务器选择方面考虑稳定性是优先选择。显示全部

linux服务器部署的集群,是不是要考虑一下数据的增长量,一般PC server的更换年限是3到5年,如果数据量增长不是特别快,计算量也不是特别大,在服务器选择方面考虑稳定性是优先选择。

收起
银行 · 2015-11-06
浏览3076
zv8912000zv8912000系统架构师电信行业
实际业务测试,会发现高主频才会带来海量数据的性价比。CPU配比内存槽位,最终硬盘个数相关。同时,hadoop在硬盘上追求的不是大容量,而是适当,一个2TSATA盘,如果坏了,需要6个小时同步,这样集群大了总会有坏硬盘,就会导致系统常年在恢复数据与缓慢运行间挣扎。所以高CPU,多磁盘,把节点...显示全部

实际业务测试,会发现高主频才会带来海量数据的性价比。CPU配比内存槽位,最终硬盘个数相关。

同时,hadoop在硬盘上追求的不是大容量,而是适当,一个2TSATA盘,如果坏了,需要6个小时同步,这样集群大了总会有坏硬盘,就会导致系统常年在恢复数据与缓慢运行间挣扎。所以高CPU,多磁盘,把节点配满才是最佳选择。

收起
电信运营商 · 2015-11-06
浏览2975
zv8912000zv8912000系统架构师电信行业
hadoop的宗旨虽然是蚂蚁吃大象,但不是说要把老虎和狼拆成蚂蚁的大小再吃大象。这个单机性价比对应业务性能需要通过实际测试才能得出。一般来说,2.2主频和2.6主频在实际业务场景可能但进城差一半效果,所以提升主频不乏也是优秀考虑之一。...显示全部

hadoop的宗旨虽然是蚂蚁吃大象,但不是说要把老虎和狼拆成蚂蚁的大小再吃大象。这个单机性价比对应业务性能需要通过实际测试才能得出。一般来说,2.2主频和2.6主频在实际业务场景可能但进城差一半效果,所以提升主频不乏也是优秀考虑之一。

收起
电信运营商 · 2015-11-06
浏览2755
xuyanhuixuyanhui信息分析/架构师58同城大数据
目前来说,传统的互联网公司,硬件配置,主要是4*12的SATA盘,196G内存,32Core的服务器,结合各种应用场景不同,硬件配置也会不一样,既要考虑服务器的性价比,又要兼容各种业务需求,显示全部

目前来说,传统的互联网公司,硬件配置,主要是4*12的SATA盘,196G内存,32Core的服务器,结合各种应用场景不同,硬件配置也会不一样,既要考虑服务器的性价比,又要兼容各种业务需求,

收起
互联网服务 · 2015-11-06
浏览2899
月光无寒月光无寒系统工程师新疆电信
首先,如果纯存储型的,配置可以不高。如果带计算的,也相应配合提升cpu。如果是spark.起步内存建议还是128G。存储部分,可以考虑增加几块ssd。关键还是看应用和资金,有钱的话适当超前一点,运行也能稳定不少。...显示全部

首先,如果纯存储型的,配置可以不高。如果带计算的,也相应配合提升cpu。如果是spark.起步内存建议还是128G。存储部分,可以考虑增加几块ssd。关键还是看应用和资金,有钱的话适当超前一点,运行也能稳定不少。

收起
电信运营商 · 2015-11-06
浏览2827
zv8912000zv8912000系统架构师电信行业
事件处理要看需求应用场景,如果应用场景并发较多,计算少,则需要采用高内存,如计算用户的最后的浏览页面;如果应用场景并发少,但计算复杂,则需要采用高CPU。如计算用户的访问页面有哪些偏好...显示全部

事件处理要看需求应用场景,

如果应用场景并发较多,计算少,则需要采用高内存,如计算用户的最后的浏览页面;

如果应用场景并发少,但计算复杂,则需要采用高CPU。如计算用户的访问页面有哪些偏好

收起
电信运营商 · 2015-11-06
浏览2729

提问者

m584880952
系统工程师山东联通

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-11-06
  • 关注会员:7 人
  • 问题浏览:12609
  • 最近回答:2015-11-06
  • X社区推广