大数据分析
大数据分析
该主题还没有描述

问题

保险负载均衡·2020-02-06
youki2008 · DDT 擅长领域:服务器, 云计算, 数据库
256 会员关注
在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。可能的原因:突然磁盘使用率变高而文件块数并没有很大的增加,极有可能...
保险Hadoop·2020-02-06
youki2008 · DDT 擅长领域:服务器, 云计算, 数据库
256 会员关注
可通过以下参数设置:mapreduce.map.memory.mb :物理内存量,默认是 1024mapreduce.map.cpu.vcores : CPU 数目,默认是 1
互联网服务Hadoop·2020-04-17
zhuqibs · Adidas 擅长领域:云计算, 服务器, 存储
58 会员关注
(1)请告知CDH版本(2)运行数月中,运行哪些内容,有无大型的作业运行,是用hive还是impala、spark,或原生的java?
互联网服务Hadoop·2020-11-02
匿名用户
能考虑到Hadoop集群容量,说明是非常重要业务。异地备份方案有两种:1.采用专业的软件,建立一个比较好的频分多路网络,通过专业的软件做数据复制。譬如:veritas,具体可以询问相关软件厂商。2.采用异地间集群复制譬如: DistCp,本地集群HDFS设置为2份,异地集群HDFS设置为1份。硬件成本...
能源采矿故障预测·2020-05-22
jxnxsdengyu课题专家组 · 江西农信 擅长领域:存储, 灾备, 双活
1055 会员关注
做了个运维大数据平台,用了些成熟算法做了指标异常检测和趋势预测,例如趋势预测方面,我们选择了渐近梯度回归树来进行指标的趋势预测。利用回归树对一段时间进行特征提取并建立预测模型。之后,系统会根据建立的模型构建未来一天以内的预测指标情况。在实时接入的过程中,系统会...
保险Hadoop·2020-02-06
呱呱爱吃瓜 · 银行 擅长领域:大数据, 服务器, 数据库
在 yarn-site.xml 中设置 yarn.scheduler.fair.allow-undeclared-pools ,将它的值配置为 false (默认是 true )。
保险Hadoop·2020-02-26
呱呱爱吃瓜 · 银行 擅长领域:大数据, 服务器, 数据库
1.先进先出调度器( FIFO )Hadoop中默认的调度器,也是一种批处理调度器。它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业2.容量调度器( Capacity Scheduler)支持多个队列,每个队列可配置一定的资源量,每个队列采用 FIFO 调度策略,为了防止同一个用户的作业独占队...
金融其它大数据监控·2020-04-01
zhuqibs · Adidas 擅长领域:云计算, 服务器, 存储
58 会员关注
主成分分析: 分析感染人群中,为什么会感染,感染的主因;分类算法: 按感染渠道、病症轻重,对所有感染人群进行分类;聚类算法: 按感染的地区,年龄,对所有感染人群进行聚类;线性回归和非线性回归: 对未来的感染人群数量进行预测;决策树: 分析有哪些症状的最有可能是患病人群;相似算法:评...
保险Hadoop·2020-03-05
尘世随缘 · 上海某互联网金融公司 擅长领域:云计算, 云原生, 微服务
86 会员关注
hadoop的hdfs能做到了海量存储,但是实时检索是需要多久实时呢?如果是KV型的实时检索,那么可选择HBASE如果是ad-hoc需求,那么impala,prestore、driud都可以如果是应用服务的实时,那么ES可以考虑下。...
X社区推广
  • 提问题