spark - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

电信运营商大数据·2015-11-06

3 会员关注

spark 5节点，每个节点8G内存，处理100G左右的数据，跑sparkmllib,每次都内存溢出。建议还是提升内存，起步128G。磁盘能放几个ssd.网卡现在主机标配1000M 3-6个，可以考虑捆绑，不捆绑也无所谓，但是万兆个人感觉没意义，如果确实需要，直接上infiniband了。...

赞同3

回答3

关注4

银行hdfs·2015-11-06

使用大数据事件处理池需要HDFS做优化处理吗

尘世随缘 · 上海某互联网金融公司　擅长领域：云计算, 云原生, 微服务

86 会员关注

HDFS适合存放一次写入多次读取的方式，不适合实时读。所以大数据事件处理池一般建议队列+流式处理，例如kakfa+storm的方式来执行。

赞同

回答2

关注3

银行银行·2015-11-06

银行系统使用内存计算（storm或spark）目前来说主要可以应用到那些方面

在银行IT建设中，Hadoop集群尚未开始大规模建设，已建设大数据平台的银行，在内存计算方面有哪几方面的应用场景呢？

回答

关注1

电信运营商大数据·2015-11-06

关于spark、storm、IBM Streams 三个目前对比，以及优势特点？

loveryue · IBM　擅长领域：服务器, 数据库, 大数据

706 会员关注

这三个产品应该分成两个部分来看。1.spark,： Spark从狭义上来看，就是一个分布式计算框架。广义上来说，spark代表了spark BDAS整个软件栈。Spark主要处理一些海量的已经保存的历史数据，通过并行计算，内存计算等技术，使得响应时间大大降低。2. storm和Streams都是处理流数据的，流...

赞同1

回答7

关注8

软件开发大数据平台·2015-11-04

大数据学习Spark如何选择学习合适的路线？？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

511 会员关注

直接看Spark入门指导，最重要的是要上手操作。。。。

赞同1

回答2

关注5

软件开发数据引擎·2015-10-14

数据引擎分析，hadoop和spark 如何选择？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

511 会员关注

mapreduce适用于数据量比较大这个跟其底层的实现有关因为他并不是完全依赖于内存，而spark拼的就是内存，如果响应速度要快而且数据量不是很大的时候，可以考虑使用spark，互联网行业中一般离线的数据会考虑MR去跑，实时采用spark...

赞同7

回答4

关注5

电信运营商spark·2015-10-13

对SQL-For-Hadoop有什么样的期待？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

511 会员关注

期待当然是花最少的成本解决最大的问题，哈哈，现在hive使用的还是比较成熟的，有条件的公司可以对其进行定制化

互联网服务大数据·2015-09-01

随着智能终端数量的极速增加，大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值，Apache基金会提出了Hadoop平台。该平台的MapReduce框架一步步发展，已经成为大数据处理的核心技术。然而，MapReduce刚...(more)

回答

关注1

轨道交通大数据·2015-08-26

Hadoop下的Linux配置和Spark下的Linux有何异同？

xuyanhui · 58同城大数据　擅长领域：服务器, 大数据, 大数据平台

475 会员关注

在国内一些主要的应用场景中，Hadoop和Spark的配置其实是一致的，尤其是Spark on Yarn的使用场景，Spark是被当做Hadoop上的一个计算应用来提供服务的，调度以及资源分配完全依赖于Yarn。

赞同

回答1

关注1

软件开发大数据·2015-08-26

Spark的调度选择？哪种更符合互联网公司的应用场景？

xuyanhui · 58同城大数据　擅长领域：服务器, 大数据, 大数据平台

475 会员关注

互联网公司的Spark使用场景主要是基于Hadoop的服务，更多的调度依赖于Hadoop Yarn的调度服务，以及Yarn的资源管理。Spark只是其一个计算应用的方式提供服务

赞同

回答1

关注1

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

135 会员贡献

23 关系主题