Hadoop - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

保险节点·2020-02-06

Hadoop 某节点上任务数目太多，资源利用率太高，怎么控制一个节点上的任务数目?

一个节点上运行的任务数目主要由两个因素决定，一个是 NodeManager 可使用的资源总量，一个是单个任务的资源需求量，比如一个 NodeManager 上可用资源为 8 GB 内存， 8 cpu ，单个任务资源需求量为 1 GB 内存， 1cpu ，则该节点最多运行 8 个任务。NodeManager 上可用资源是由管理员在...

赞同

回答1

关注2

保险负载均衡·2020-02-06

默认情况下，hadoop 负载不均衡（任务数目不同），怎样让各个节点任务数目尽可能均衡呢？

youki2008 · DDT　擅长领域：服务器, 云计算, 数据库

254 会员关注

在线上的hadoop集群运维过程中，hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布，以避免出现部分datanode磁盘占用率高的问题（这问题也很有可能导致该节点CPU使用率较其他服务器高）。可能的原因：突然磁盘使用率变高而文件块数并没有很大的增加，极有可能...

保险Hadoop·2019-12-30

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

– 第一个副本：集群内部提交放置在上传文件的 DN ；如果是集群外提交，则随机挑选一台磁盘不太满， CPU 不太忙的节点。– 第二个副本：放置在于第一个副本不同的机架的节点上。– 第三个副本：与第二个副本相同机架的不同节点。– 更多副本：随机节点，不重复的...

保险大数据·2019-12-30

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

优点分布式的特性：-- 适合大数据处理： GB 、 TB 、甚至 PB 级及以上的数据-- 百万规模以上的文件数量 :10K+ 节点。-- 适合批处理：移动计算而非数据 (MR), 数据位置暴露给计算框架自身特性：-- HA 高可用：可构建在廉价机器上：-- 高可靠性 : 通过多副本提提高-- 高容错性：数据自动...

保险大数据·2019-12-30

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

HDFS （ Hadoop Distribute FileSystem ）分布式文件存储系统。它易于扩展的分布式文件系统，而且运行在大量廉价机器上，并且提供容错机制为大量用户提供性能不错的文件存取服务NameNode-- NameNode 主要功能：1 、接受客户端的读 / 写服务。2 、接受 DN 汇报的 block 位置信息。-...

赞同

回答1

关注2

保险Hadoop集群·2019-12-20

Hadoop集群运行有几种模式？分别是怎样的？

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

三种模式 :单机模式伪分布式模式完全分布式模式单机模式默认模式。不对配置文件进行修改。使用本地文件系统，而不是分布式文件系统。Hadoop 不会启动 NameNode 、 DataNode 、 JobTracker 、 TaskTracker 等守护进程， Map() 和 Reduce() 任务作为同一个进程的不同部分来执...

赞同

回答1

关注2

保险Hadoop·2019-12-19

正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

1 ） NameNode 它是 hadoop 中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问，保存有 metadate 。2 ） SecondaryNameNode 它不是 namenode 的冗余守护进程，而是提供周期检查点和清理任务。帮助 NN 合并 editslog ，减少 NN 启动时间。3 ） DataNode 它负责管理连接到...

赞同

回答1

关注2

保险Hadoop·2019-12-19

Hadoop中需要哪些配置文件，其作用是什么？

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

1 core-site.xml ：(1)fs.defaultFS:hdfs://cluster1( 域名 ) ，这里的值指的是默认的 HDFS 路径。(2)hadoop.tmp.dir:/export/data/hadoop_tmp, 这里的路径默认是 NameNode 、 DataNode 、 secondaryNamenode 等存放数据的公共目录。用户也可以自己单独指定这三类节点的目...

赞同

回答1

关注2

系统集成虚拟化·2019-12-18

hadoop大数据平台使用物理机还是虚拟化？