请问 HDFS数据怎么入Hbase？

百分点技术总监百分点

HDFS数据导入到HBase有三种方式：
1、可以通过普通的MR程序，在Map或者Reduce里面通过HTable的对象来写入到HBase
2、直接通过MR程序，用HBase的TableMapper和TableReducer方法，然后用TableMapReduceUtil类来执行MR，和1类似
3、如果数据量大，建议使用bulkload的方式，通过HfileOutputFormat方法生成HFile格式的数据，再通过LoadIncrementalHfile的方法把结果加载到HBase收起

互联网服务 · 2015-07-03

查看赞同的人

百分点技术总监百分点

回复 8# han11jiji

一般来说我们是将非结构化数据转换为结构化的再导入到HBase中，百分点有一个产品Formatter完成这项工作，它读取JSON数据，然后：1. 将JSON记录中的每个字段清洗为Hive或HBase接受的类型
2. 将所有记录拼接为一条或几条记录，这是看JSON中是否有嵌套字段（数组、Map）决定的
3. 将拼接出的记录导入到指定的Hive表或HBase中
这个产品通过配置即可完成上述操作，不需要写代码。收起

互联网服务 · 2015-07-04

查看赞同的人

michaelhugang产品总监星环科技

如果是性能要求高，就用BULKLOAD方式；
1.解压文件并上传至HDFS目录（解压以更好地给Mapper分配任务）
2.在原始数据集中抽样 sampling，更均匀地切分Mapper的任务，使得Mapper任务数量小于但接近于系统的最大Mapper数；
3.估算每个region含有的记录数：根据总region数和总记录数估计，region数据估计为CPU核数的4倍
经验：在运行bulkload时，reduce的数量接近系统最大的reduce槽数
4.运行genSplitKey.sh可以生成splitKeySpec
5.根据估算的每个mapper读入数据量，调整conf.properties中的splitSize参数；如果有相同数据的重复导入，可以设置recurrence；
6.运行runBulkLoad.sh即可。收起

软件开发 · 2015-07-03

查看赞同的人