互联网服务Hadoop Hadoop监控

求助HADOOP集群上线运行数个月后，任务运行变慢的重启之外的解决方案？

HADOOP集群上线运行数个月后，运行变得很缓慢。（集群配置万兆网，万兆交换机， 2个NAMENODE 33个DATANODE 2个客户端，机器配置 512GB，128CORE。整个集群YARN资源 12.8TB内存，1800CORES）。之前运行1分钟的任务，需要运行超过10分钟才能结束。甚至更长时间。对集群的IO进行了测试，发现平均IO非常的慢，只有17M。同时在日志中发现大量的RPC消息超长。于是重启了HDFS.YARN 以及修改了 ipc.maximum.data.length的值为128M后。发现系统又恢复了正常的速度。但是不知道是不是这样就是正规的解决方式，还是只是因为重启缓解了问题，后面问题依旧还有。求助大家给点思路。

参与11

2同行回答
互联网服务
全部行业 互联网服务
|
按赞同排序
按时间排序

zhuqibs软件开发工程师Adidas

（1）请告知CDH版本
（2）运行数月中，运行哪些内容，有无大型的作业运行，是用hive还是impala、spark，或原生的java？

互联网服务 · 2020-04-19

浏览1155

查看赞同的人

尘世随缘技术总监上海某互联网金融公司

根据问题来看，这个集群配置不低。是hive任务运行的比较慢还是其他？如有可能建议把apache的换成CDH版本的，因为CDH版本提供了很多可视化界面，方便排查问题。

互联网服务 · 2020-04-29

浏览1118

相关问题

系统迁移，国产化转信创如何实施？

医疗大数据平台不同的建设路线底层基础架构设计时有什么要求？

Hadoop生态圈子项目有哪些？

怎样用Hadoop进行高效的处理小文件?以及怎样让各个节点尽可能的负载均衡?

请问docker和k8s是否面向应用呢？能否动态部署hadoop等分布式集群呢？

相关资料

基于ZooKeeper搭建Hadoop高可用集群

《深度剖析Hadoop HDFS》-第一部分

阿里Hadoop集群架构及服务体系

Hadoop-100道面试题及答案解析

《深度剖析Hadoop HDFS》-第二部分

相关文章

中小银行大数据平台建设实践分享

Hadoop集群3台服务器系统异常重分析

某银行大数据平台的架构设计及应用实践经验

Hadoop MapReduce作业长时间卡死问题解决方法

问题状态

发布时间：2020-04-17

关注会员：3 人

问题浏览：1845

最近回答：2020-04-29

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广