hive
hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

热点

hive·2017-07-31
王磊磊 · 移动 擅长领域:服务器, 存储, 数据库
235 会员关注
介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,count,m...(more)
浏览1330
系统集成yarn·2017-07-04
rein07 · 某证券 擅长领域:人工智能, 大数据, 机器学习
582 会员关注
应该是spark on yarn多些,基于yarn的任务管理方便,且有助于资源的统一管理。2、spark sql比hive sql要新一点,两者都可以使用,像我们更多的是直接使用spark core,还是看场景吧。
保险应用场景·2017-07-03
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
511 会员关注
传统的ETL在数据量不大比如<20G的数据文件处理,他的优势在于他是可视化的步骤比较简单,上手比较快Mapreduce对于数据量比较大的,处理数据业务逻辑变化不是很大,因为每次用java或者python等都得反复调试,比如淘宝底层日志解析,日志的格式基本都不会有太大的变化,写一次Mapredu...
银行大数据平台·2017-06-22
rein07 · 某证券 擅长领域:人工智能, 大数据, 机器学习
582 会员关注
hive上对数据的修改和删除确实比较困难,但是hbase支持的比较好的。现在cloudera推出一款新的产品,kudu,也可以试一试。
互联网服务Hadoop·2017-06-20
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
511 会员关注
题目应该是hive on spark 另外你这个异常可能是hive跟spark的版本不一致的原因,建议你看一下你的hive源码中的pom.xml里面依赖的spark是什么版本的
Hadoop·2015-07-30
humidy · 某公司 擅长领域:大数据, 商业智能, 数据库
113 会员关注
编写者胡旻     版权所有 转载请注明 对于写过WordCount的MapReduce程序的同学来说。会感受到这是Hadoop中数据处理的低层次实现,实际上直接编写MapReduce程序只是Hadoop中数据处理的一种方式,而且其实用性比较有限。 Hive就是设计出来简化H...(more)
浏览6206
数据库·2015-05-15
solr · 某移动互联网公司 擅长领域:分布式系统, 服务器, 分布式数据库
1、        检查安装环境安装gcc-c++,cyrus-sasl,python-devel安装cyrus-sasl-devel-2.1.23-15.el6.i686.rpm,根据版本决定2、        安装pyhs2使用pyshon的pip命令安装pyhs2pip inst...(more)
浏览4834
数据库·2015-01-28
hotmail · hotmail 擅长领域:数据库, 服务器, 云计算
667 会员关注
收藏3
评价10
金币1

描述

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
X社区推广
  • 提问题