大数据分析 - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

系统集成多租户·2017-07-04

在企业大数据架构中，除了采用Kerberos和CDH多租户以外，还有哪些较好的权限和资源控制产品呢？

heraleign · iwhalecloud　擅长领域：大数据, 大数据平台, 服务器

130 会员关注

暂时只讨论第一个话题，内存计算和仓库计算我再单独提问，带来不便，还请谅解，谢谢！

赞同2

回答2

关注3

银行优化策略·2017-07-03

Mapreduce，Hive ，Spark处理数据的优化策略各有什么不同？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

其实我更觉得他们的优化策略很相似，有错的地方还请指出1.数据倾斜，碰到小表跟大表的关联数据倾斜都是希望把小表在每个计算机器上复制一份放在内存当中只是调用的api不同，或者将倾斜的key加随机数前缀，实质也是为了数据分布均衡2.内存方面都希望最大限度的把数据放在内存中处...

赞同2

回答1

关注4

保险应用场景·2017-07-03

传统ETL ，Mapreduce，Hive，Spark等处理数据文件的应用场景都有哪些？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

传统的ETL在数据量不大比如<20G的数据文件处理，他的优势在于他是可视化的步骤比较简单，上手比较快Mapreduce对于数据量比较大的，处理数据业务逻辑变化不是很大，因为每次用java或者python等都得反复调试，比如淘宝底层日志解析，日志的格式基本都不会有太大的变化，写一次Mapredu...

赞同3

回答2

关注5

互联网服务数据备份·2017-06-27

全球Hadoop服务器因配置不安全导致大量数据泄漏，针对这种情况该如何进行防范和补救？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

首先最基本的查看hadoop自带默认的一些监听端口，比如50070,10020等一般配置在hdfs-site.xml，mapred-site.xml，yarn-site.xml这几个文件中，修改成另外的端口，另外对hadoop集群的访问要设置ip过滤等措施其次是hadoop的job权限分为三层，一个是Servicelevel，就是控制所有用户对job的...

证券数据源·2017-06-21

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

587 会员关注

数据源都来自企业内部的众多系统。首先还是要看对数据有什么样的期望，毕竟技术只是实现的手段。

赞同

回答1

关注2

互联网服务Hadoop·2017-06-20

请教spark on hive的安装问题

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

题目应该是hive on spark 另外你这个异常可能是hive跟spark的版本不一致的原因，建议你看一下你的hive源码中的pom.xml里面依赖的spark是什么版本的

电信运营商大数据·2017-06-13

bryan · 金融研发　擅长领域：云计算, 容器, 容器云

335 会员关注

数据的生命周期和业务紧密相关，是业务属性，比如有的业务要求保存5年，有的业务要求保存3年。我们在做的过程中，生命周期是自行研发工具进行管理的。可以参考一下这个文章 https://talena-inc.com/media/Talena_Report_HadoopAdoption_2015.pdf...

赞同5

回答1

关注2

银行大数据分析·2017-05-25

如何真正发挥SOC安全平台中，大数据分析的价值？