互联网服务HadoopHadoop监控

求助HADOOP集群上线运行数个月后,任务运行变慢的重启之外的解决方案?

HADOOP集群上线运行数个月后,运行变得很缓慢。(集群配置 万兆网, 万兆交换机,   2个NAMENODE 33个DATANODE 2个客户端 ,机器配置 512GB,128CORE。 整个集群YARN资源 12.8TB内存,1800CORES)。 之前运行1分钟的任务,需要运行超过10分钟才能结束。甚至更长时间。对集群的IO进行了测试,发现平均IO非常的慢,只有17M。  同时在日志中发现大量的RPC消息超长。于是重启了HDFS.YARN 以及修改了 ipc.maximum.data.length的值为128M后。发现系统又恢复了正常的速度。但是不知道是不是这样就是正规的解决方式,还是只是因为重启缓解了问题,后面问题依旧还有。 求助大家给点思路。

参与11

2同行回答

zhuqibszhuqibs软件开发工程师Adidas
(1)请告知CDH版本(2)运行数月中,运行哪些内容,有无大型的作业运行,是用hive还是impala、spark,或原生的java?显示全部

(1)请告知CDH版本
(2)运行数月中,运行哪些内容,有无大型的作业运行,是用hive还是impala、spark,或原生的java?

收起
互联网服务 · 2020-04-19
浏览1112
尘世随缘尘世随缘技术总监上海某互联网金融公司
根据问题来看,这个集群配置不低。是hive任务运行的比较慢还是其他?如有可能建议把apache的换成CDH版本的,因为CDH版本提供了很多可视化界面,方便排查问题。显示全部

根据问题来看,这个集群配置不低。是hive任务运行的比较慢还是其他?如有可能建议把apache的换成CDH版本的,因为CDH版本提供了很多可视化界面,方便排查问题。

收起
互联网服务 · 2020-04-29
浏览1073

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-04-17
  • 关注会员:3 人
  • 问题浏览:1792
  • 最近回答:2020-04-29
  • X社区推广