hive - 主题 - twt企业IT交流平台

热点

hive·2017-07-31

235 会员关注

介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,count,m...(more)

赞同2

系统集成yarn·2017-07-04

请问一下，在内存计算的使用上，大家都采用什么模式呢？

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

582 会员关注

应该是spark on yarn多些，基于yarn的任务管理方便，且有助于资源的统一管理。2、spark sql比hive sql要新一点，两者都可以使用，像我们更多的是直接使用spark core，还是看场景吧。

赞同6

回答2

关注4

保险应用场景·2017-07-03

传统ETL ，Mapreduce，Hive，Spark等处理数据文件的应用场景都有哪些？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

511 会员关注

传统的ETL在数据量不大比如<20G的数据文件处理，他的优势在于他是可视化的步骤比较简单，上手比较快Mapreduce对于数据量比较大的，处理数据业务逻辑变化不是很大，因为每次用java或者python等都得反复调试，比如淘宝底层日志解析，日志的格式基本都不会有太大的变化，写一次Mapredu...

赞同3

回答2

关注5

银行大数据平台·2017-06-22

目前的大数据平台组件HIVE和HBASE，在进行修改，删除等数据操作的时候比较困难，请问有没有好的解决方法

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

582 会员关注

hive上对数据的修改和删除确实比较困难，但是hbase支持的比较好的。现在cloudera推出一款新的产品,kudu，也可以试一试。

赞同2

回答3