spark - 主题 - twt企业IT交流平台

热点

保险应用场景·2017-07-03

传统ETL ，Mapreduce，Hive，Spark等处理数据文件的应用场景都有哪些？

511 会员关注

传统的ETL在数据量不大比如<20G的数据文件处理，他的优势在于他是可视化的步骤比较简单，上手比较快Mapreduce对于数据量比较大的，处理数据业务逻辑变化不是很大，因为每次用java或者python等都得反复调试，比如淘宝底层日志解析，日志的格式基本都不会有太大的变化，写一次Mapredu...

赞同3

回答2

关注5

大数据·2017-06-27

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink

zhenzongjian · na　擅长领域：服务器, AIX, Unix

137 会员关注

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系...(more)

赞同

互联网服务Hadoop·2017-06-20

请教spark on hive的安装问题

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

511 会员关注

题目应该是hive on spark 另外你这个异常可能是hive跟spark的版本不一致的原因，建议你看一下你的hive源码中的pom.xml里面依赖的spark是什么版本的

赞同6

回答5

关注5

银行运维日志分析平台·2016-06-02

基于Linux on Power构建运维日志管理平台PPT

匿名用户

下载 85

评价13

金币5

电信运营商大数据·2015-11-06

关于spark、storm、IBM Streams 三个目前对比，以及优势特点？

loveryue · IBM　擅长领域：服务器, 数据库, 大数据

705 会员关注

这三个产品应该分成两个部分来看。1.spark,： Spark从狭义上来看，就是一个分布式计算框架。广义上来说，spark代表了spark BDAS整个软件栈。Spark主要处理一些海量的已经保存的历史数据，通过并行计算，内存计算等技术，使得响应时间大大降低。2. storm和Streams都是处理流数据的，流...

赞同1

回答7

关注8

电信运营商Hadoop·2015-06-04

Hadoop/spark等大数据处理平台对服务器的配置要求和最佳实践

phanx · 银行　擅长领域：服务器, 数据库, AIX

105 会员关注

回复 3# liucx Hadoop平台网络尽量考虑万兆。节点间的流量大，千兆会成为瓶颈。你可以阅读一下Cloudera的这篇Blog。 Cloudera是Hadoop的一个企业发行版厂商，Cloudera和Hadoop的关系类似Redhat和Linux的关系。How-to: Select the Right Hardware for Your New Hadoop Clust...

赞同

回答4

关注2

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

135 会员贡献

23 关系主题