1、多少个map需要多少个reduce来支持处理?怎么分配map和reduce的数量才是合理的?如何考虑?
2、如果MR自行决定,那么原理是什么?
3、当服务器集群出现资源不足的时候,如何考虑map和reduce的进行的分配?
MapReduce计算引擎中,map和reduce的数量是可以配置的,但是如何分配才是合理的需要考虑以下因素:
一般来说,可以参考Hadoop的经验规则来配置MapReduce任务的数量。在大多数情况下,map的数量应该设置为输入数据块的数量或集群节点的数量,reduce的数量应该设置为1-2倍的集群节点数。
当服务器集群出现资源不足的时候,可以考虑以下几种方法来调整map和reduce的数量: