spark - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

软件开发大数据·2015-08-26

Spark的调度选择？哪种更符合互联网公司的应用场景？

xuyanhui · 58同城大数据　擅长领域：服务器, 大数据, 大数据平台

475 会员关注

互联网公司的Spark使用场景主要是基于Hadoop的服务，更多的调度依赖于Hadoop Yarn的调度服务，以及Yarn的资源管理。Spark只是其一个计算应用的方式提供服务

赞同

回答1

关注1

软件开发大数据·2015-08-25

大数据环境下该选Hadoop还是Spark？

xuyanhui · 58同城大数据　擅长领域：服务器, 大数据, 大数据平台

475 会员关注

其实两者是一个意思，大数据环境下两者服务是互补的，先说Hadoop的服务，主要依赖于HDFS的存储，离线的计算MR或者hive以及其他组件，Spark可以作为Hadoop HDFS基础上的一种基于迭代计算的服务组件，相互配合使用更为合理，所以在官方的Hadoop架构图中Spark是其Yarn上的一个计算单元来...

银行spark·2015-08-21

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

spark跟hadooop都是mr，只不过spark所有数据尽量走内存速度会比hadoop快一些，hadoop适用于比较大的数据量

银行spark·2015-08-21

尘世随缘 · 上海某互联网金融公司　擅长领域：云计算, 云原生, 微服务

86 会员关注

这种各有千秋，但是替代肯定是不现实的。业务场景不一样，使用的工具不一样。业务决定工具

赞同

回答3

关注2

互联网服务Docker·2015-08-03

HDFS DataNode和Spark Slave必须运行于同一个容器中吗？

flying_eagle · 某汽车制造公司　擅长领域：服务器, Linux, 云计算

265 会员关注

容器启动时可以设置网络模式为共用Host的网络，这样就使用的是同一个IP了

软件开发数据库·2015-07-21

问题如下：文件路径包括日期和时间，比如：2015/06/26/00/00/7A7C2C05-4B06-A1A0-1636-FB24741A3A10.txt如果要查询2015/06/26/00/00 到 2015/07/05/03/00这段时间的所有文件，在hadoop或者spark, 输入应该是什么格式？...(more)

回答

关注2

软件开发数据库·2015-06-09

eclipse连接spark 运行Wordcount

这是eclipse的日志：----------------------------------------------------------------------------------------------------------------------------------------Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties15/06/09 13:44:42 ...(more)

回答3

关注1

电信运营商spark·2015-06-04

power 系列有实用跑hadoop和spark的么？

北京荣歆咨询 · 北京荣歆咨询有限公司　擅长领域：服务器, 存储, 数据库

290 会员关注

兼容性应该问题不大。毕竟，POWER可以跑linux，开源的大数据软件运行在linux上门槛不高。说到实际案例，大数据的还是有的，最有名的watson不就是运行在POWER7上嘛。当然，开源的这些大数据方案由于成本的原因，很少考虑用POWER....

赞同2

回答4

关注2

电信运营商spark·2015-06-04

目前spark常规选型里面，内存最低配置是什么情况？

北京荣歆咨询 · 北京荣歆咨询有限公司　擅长领域：服务器, 存储, 数据库

290 会员关注

随着内存成本下降，内存越配越大，硬盘有慢慢变成近线存储的趋势。

赞同

回答3

关注2

电信运营商spark·2015-06-04

Hadoop/spark等大数据处理平台对服务器的配置要求和最佳实践

phanx · 银行　擅长领域：服务器, 数据库, AIX

105 会员关注

回复 3# liucx Hadoop平台网络尽量考虑万兆。节点间的流量大，千兆会成为瓶颈。你可以阅读一下Cloudera的这篇Blog。 Cloudera是Hadoop的一个企业发行版厂商，Cloudera和Hadoop的关系类似Redhat和Linux的关系。How-to: Select the Right Hardware for Your New Hadoop Clust...

赞同

回答4

关注2

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

137 会员贡献

23 关系主题