spark on yarn的集群架构如何利用好内存和SSD

在spark on yarn的集群架构中,主要任务有:批量数据处理、交互式查询、流式计算和基于nosql的实时查询。然而spark对内存要求较高,nosql数据库同样对内存需求较大。在这样的架构中内存如何分配、如何利用好SSD充分发挥集群的性能是我们最关心的问题,还请大家提出宝贵建议。...显示全部
在spark on yarn的集群架构中,主要任务有:批量数据处理、交互式查询、流式计算和基于nosql的实时查询。然而spark对内存要求较高,nosql数据库同样对内存需求较大。
在这样的架构中内存如何分配、如何利用好SSD充分发挥集群的性能是我们最关心的问题,还请大家提出宝贵建议。收起
参与8

查看其它 2 个回答北京荣歆咨询的回答

北京荣歆咨询北京荣歆咨询系统架构师北京荣歆咨询有限公司
spark是一种内存计算技术,有大内存才能发挥出性能优势。SSD虽然比传统硬盘快了10-100倍,但与内存的访问速度还是差着N个数量级呢,所以性能提升需要程序有高效的预读机制来配合。
IT咨询服务 · 2015-06-15
浏览2556

回答者

北京荣歆咨询
系统架构师北京荣歆咨询有限公司
擅长领域: 服务器存储数据库

北京荣歆咨询 最近回答过的问题

回答状态

  • 发布时间:2015-06-15
  • 关注会员:1 人
  • 回答浏览:2556
  • X社区推广