如果是性能要求高,就用BULKLOAD方式;1.解压文件并上传至HDFS目录(解压以更好地给Mapper分配任务)2.在原始数据集中抽样 sampling,更均匀地切分Mapper的任务,使得Mapper任务数量小于但接近于系统的最大Mapper数;3.估算每个region含有的记录数:根据总region数和总记录数估计,region...
显示全部如果是性能要求高,就用BULKLOAD方式;
1.解压文件并上传至HDFS目录(解压以更好地给Mapper分配任务)
2.在原始数据集中抽样 sampling,更均匀地切分Mapper的任务,使得Mapper任务数量小于但接近于系统的最大Mapper数;
3.估算每个region含有的记录数:根据总region数和总记录数估计,region数据估计为CPU核数的4倍
经验:在运行bulkload时,reduce的数量接近系统最大的reduce槽数
4.运行genSplitKey.sh可以生成splitKeySpec
5.根据估算的每个mapper读入数据量,调整conf.properties中的splitSize参数;如果有相同数据的重复导入,可以设置recurrence;
6.运行runBulkLoad.sh即可。
收起