大数据分析 - 主题 - twt企业IT交流平台

求助HADOOP集群上线运行数个月后，任务运行变慢的重启之外的解决方案？

回答1

关注2

互联网服务Hadoop·2020-04-17

zhuqibs · Adidas　擅长领域：云计算, 服务器, 存储

58 会员关注

（1）请告知CDH版本（2）运行数月中，运行哪些内容，有无大型的作业运行，是用hive还是impala、spark，或原生的java？

赞同6

因工作需要向大数据分析方面倾斜，学习有点盲目，无从下手，零基础的人如何快速进入正轨？专家给些建议资料？

能源采矿大数据分析·2020-04-02

zhuqibs · Adidas　擅长领域：云计算, 服务器, 存储

58 会员关注

（1）人的生命是有限的，技术是无限的，所以，不能什么都学，这一点是最主要的。（2）学习主流的技术，忽略杂牌的，如何区别呢，看github的star和commit（3）如果是架构，先学数据库，再学大数据。数据库比较基础，有点概念和大数据向通。（4）如果是分析，先学传统的分析软件（saas、spss，obiee），再学大数据分析（h...

赞同7

回答1

关注2

金融其它算法·2020-04-01

疫情期间大数据监控，分析，决策会用到哪些算法?

zhuqibs · Adidas　擅长领域：云计算, 服务器, 存储

58 会员关注

主成分分析：分析感染人群中，为什么会感染，感染的主因；分类算法：按感染渠道、病症轻重，对所有感染人群进行分类；聚类算法：按感染的地区，年龄，对所有感染人群进行聚类；线性回归和非线性回归：对未来的感染人群数量进行预测；决策树：分析有哪些症状的最有可能是患病人群；相似算法：评...

赞同6

回答1

关注2

保险分布式存储·2020-03-30

AI训练或大数据分析是直接使用对象存储好，还是先把数据抽取到本地文件系统好？

zhuqibs · Adidas　擅长领域：云计算, 服务器, 存储

58 会员关注

抽取到本地存储，这绝对不是一个好的主意，大数据平台的数据量十分庞大，所进行的操作涉及的数据，少则几个G，多达几十个T，如此多的数据，就算你本地存储够大，请问抽取传输要多少时间。所以，必定是在计算节点进行分析，可以的话，可以调用有GPU的计算节点进行AI训练。至于对象存储，是可以的，...

赞同7

回答3

关注4

保险Hadoop·2020-03-05

Hadoop存储海量数据没有问题，但是如何能够做到海量数据的实时检索？

尘世随缘 · 上海某互联网金融公司　擅长领域：云计算, 云原生, 微服务

86 会员关注

hadoop的hdfs能做到了海量存储，但是实时检索是需要多久实时呢？如果是KV型的实时检索，那么可选择HBASE如果是ad-hoc需求，那么impala，prestore、driud都可以如果是应用服务的实时，那么ES可以考虑下。...

为什么Hadoop适用于大型数据集的应用程序，而不是具有大量的小文件的应用程序？

保险Hadoop·2020-03-05

Luga Lee · None　擅长领域：云计算, 容器, 容器云

43 会员关注

关键点还在于“NameNode”。目录/文件和Block均会占用NameNode内存空间，大量小文件会降低内存使用效率，除此，小文件的读写性能远远低于大文件的读写，主要原因对小文件读写需要在多个数据源切换，严重影响性能。...

怎样用Hadoop进行高效的处理小文件?以及怎样让各个节点尽可能的负载均衡?

保险负载均衡·2020-03-04

youki2008 · DDT　擅长领域：服务器, 云计算, 数据库

254 会员关注

hadoop 在处理大规模数据时是很高效的，处理小文件时，可以将小文件打包为大文件，例如使用 SequcenFile 文件格式，这样多个小文件就可以通过 SequcenFile 文件格式变为一个大文件，之前的每个小文件都会映射为 SequcenFile 文件的一条记录。...

赞同3

hadoop调度器有哪些，它们的工作方法都是怎样的？

保险Hadoop·2020-02-26

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

1.先进先出调度器（ FIFO ）Hadoop中默认的调度器，也是一种批处理调度器。它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业2.容量调度器（ Capacity Scheduler)支持多个队列，每个队列可配置一定的资源量，每个队列采用 FIFO 调度策略，为了防止同一个用户的作业独占队...

保险Hadoop·2020-02-26

尘世随缘 · 上海某互联网金融公司　擅长领域：云计算, 云原生, 微服务

86 会员关注

简单理解dataNode就是存储数据的服务。对应的NameNode是管理数据的服务（记录数据在哪个分片，当前副本情况），以及NodeManager是管理当前节点的服务