spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
热点
来自主题:spark · 2017-10-11
时东南外资银行 擅长领域:人工智能, 知识图谱, 深度学习
201 会员关注
使用机器学习的方法可以解决越来越多的实际问题,它在现实世界中的应用越来越广泛,比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制,等等。机器学习分类我们都知道,机器学习可以分为三大类:监督学习(SupervisedLearning)、无监督学习(UnsupervisedLearning)和强...(more)
浏览1694
来自主题:hive · 2017-08-23
时东南外资银行 擅长领域:人工智能, 知识图谱, 深度学习
201 会员关注
摘要十档行情指某只股票或者证券在某一时刻全市场的最低的十个卖出价格和最高的十个买入价格,每一个价格称之为一个档位。上海证券交易所市场监察部在进行数据协查和异常分析中需频繁使用个股任意时点的十档行情信息。临时还原档位行情数据的效率不高。因此,本文致力于基于...(more)
浏览1193
来自主题:spark · 2017-08-18
时东南外资银行 擅长领域:人工智能, 知识图谱, 深度学习
201 会员关注
1概述2015年以来,随着股市的持续火爆,中国证监会、证券业协会先后发布相关文件,要求对证券公司外部信息系统接入风险加强行业监管和自律。其中要求证券公司应当建立投资者证券、资金账户风险监测模型,动态监测账户交易行为特征、客户交易终端定位信息、账户资金进出等情况,及...(more)
浏览7765
评论1
来自主题:spark · 2017-08-18
哈杜普百度 擅长领域:大数据, Flink, 流处理
28 会员关注
前言说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:SimpliedDataProcessingonLargeClusters》。在当时(2000年左右),由于网页数量急剧增加,Google公司内部平时要编写很多的程序来处理大量的原始数据:爬虫爬到的网页、网页请求日志;计算各种类型的派生数据:倒排索...(more)
浏览3989
来自主题:spark · 2017-08-14
阿童木某移动 擅长领域:TensorFlow, PMLS, 机器学习
39 会员关注
本文调查分析了多个分布式机器学习平台所使用的设计方法,并提出了未来的研究方向。机器学习,特别是深度学习(DL),最近已经在语音识别、图像识别、自然语言处理、推荐/搜索引擎等领域获得了成功。这些技术在自主驾驶汽车、数字卫生系统、CRM、广告、物联网等方面都存在着非常有...(more)
浏览1785
来自主题:大数据 · 2017-07-07
gossipyboy某城市商业银行 
发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在...(more)
浏览1647
来自主题:hbase · 2017-07-05
美国队长Alibaba 擅长领域:大数据, Hadoop, spark
319 会员关注
可以从你的底层存储方式着手,比如你的30亿数据是否可以划分成3层,内存区,热存储区,冷数据区,新的数据过来,先放内存,然后后台进程自动对内存中的数据跟热区数据进行比对是否存在,设置数据降级机制,哪些数据可能用的比较少可以先从内存中降级到热存储区如果你想用hbase的话,建议你根...
浏览8313
回答3
来自主题:Hadoop · 2017-06-20
美国队长Alibaba 擅长领域:大数据, Hadoop, spark
319 会员关注
题目应该是hive on spark 另外你这个异常可能是hive跟spark的版本不一致的原因,建议你看一下你的hive源码中的pom.xml里面依赖的spark是什么版本的
浏览6779
回答5
来自主题:集群 · 2017-04-21
bigdata_user博彦科技 擅长领域:Hadoop, 数据库迁移, 大数据平台
51 会员关注
如果你是用的是Apache的,你的安装目录就是spark的根目录,如果使用的cdh,一般都在opt路径下
浏览7564
回答2
来自主题:Hadoop · 2016-06-02
匿名用户
收藏5
评价12
金币5
描述
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
© 2020  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

  • 提问题