大数据分析
大数据分析
该主题还没有描述

问题

银行Hadoop·2020-05-09
zftang · 小白一枚 擅长领域:数据库, 云计算, 服务器
64 会员关注
肯定可以的哇
互联网服务Hadoop·2020-04-17
zhuqibs · Adidas 擅长领域:云计算, 服务器, 存储
58 会员关注
(1)请告知CDH版本(2)运行数月中,运行哪些内容,有无大型的作业运行,是用hive还是impala、spark,或原生的java?
能源采矿大数据分析·2020-04-02
zhuqibs · Adidas 擅长领域:云计算, 服务器, 存储
58 会员关注
(1)人的生命是有限的,技术是无限的,所以,不能什么都学,这一点是最主要的。(2)学习主流的技术,忽略杂牌的,如何区别呢, 看github的star和commit(3)如果是架构,先学数据库,再学大数据。数据库比较基础,有点概念和大数据向通。(4)如果是分析,先学传统的分析软件(saas、spss,obiee),再学大数据分析(h...
金融其它算法·2020-04-01
zhuqibs · Adidas 擅长领域:云计算, 服务器, 存储
58 会员关注
主成分分析: 分析感染人群中,为什么会感染,感染的主因;分类算法: 按感染渠道、病症轻重,对所有感染人群进行分类;聚类算法: 按感染的地区,年龄,对所有感染人群进行聚类;线性回归和非线性回归: 对未来的感染人群数量进行预测;决策树: 分析有哪些症状的最有可能是患病人群;相似算法:评...
保险分布式存储·2020-03-30
zhuqibs · Adidas 擅长领域:云计算, 服务器, 存储
58 会员关注
抽取到本地存储,这绝对不是一个好的主意,大数据平台的数据量十分庞大,所进行的操作涉及的数据,少则几个G,多达几十个T,如此多的数据,就算你本地存储够大,请问抽取传输要多少时间。所以,必定是在计算节点进行分析,可以的话,可以调用有GPU的计算节点进行AI训练。至于对象存储,是可以的,...
保险Hadoop·2020-03-05
尘世随缘 · 上海某互联网金融公司 擅长领域:云计算, 云原生, 微服务
86 会员关注
hadoop的hdfs能做到了海量存储,但是实时检索是需要多久实时呢?如果是KV型的实时检索,那么可选择HBASE如果是ad-hoc需求,那么impala,prestore、driud都可以如果是应用服务的实时,那么ES可以考虑下。...
保险Hadoop·2020-03-05
Luga Lee · None 擅长领域:云计算, 容器, 容器云
43 会员关注
关键点还在于“NameNode”。 目录/文件和Block均会占用NameNode内存空间,大量小文件会降低内存使用效率,除此,小文件的读写性能远远低于大文件的读写,主要原因对小文件读写需要在多个数据源切换,严重影响性能。...
保险负载均衡·2020-03-04
youki2008 · DDT 擅长领域:服务器, 云计算, 数据库
254 会员关注
hadoop 在处理大规模数据时是很高效的,处理小文件时,可以将小文件打包为大文件,例如使用 SequcenFile 文件格式,这样多个小文件就可以通过 SequcenFile 文件格式变为一个大文件,之前的每个小文件都会映射为 SequcenFile 文件的一条记录。...
保险Hadoop·2020-02-26
呱呱爱吃瓜 · 银行 擅长领域:大数据, 服务器, 数据库
1.先进先出调度器( FIFO )Hadoop中默认的调度器,也是一种批处理调度器。它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业2.容量调度器( Capacity Scheduler)支持多个队列,每个队列可配置一定的资源量,每个队列采用 FIFO 调度策略,为了防止同一个用户的作业独占队...
保险Hadoop·2020-02-26
尘世随缘 · 上海某互联网金融公司 擅长领域:云计算, 云原生, 微服务
86 会员关注
简单理解dataNode就是存储数据的服务。对应的NameNode是管理数据的服务(记录数据在哪个分片,当前副本情况),以及NodeManager是管理当前节点的服务
X社区推广
  • 提问题