使用Hadoop处理精分数据可以分三步走,整个系统分成 在线系统,准实时系统,批处理系统三个部分:下面介绍批处理系统流程:1.使用同步工具同步原有精分的原始数据到HDFS分布式存储中,加载到Hive中做成原始数据仓库。2.使用Hive做SQL做数据清洗预处理,制作成提取用户关键数据做数...
显示全部使用Hadoop处理精分数据可以分三步走,整个系统分成 在线系统,准实时系统,批处理系统三个部分:
下面介绍批处理系统流程:
1.使用同步工具同步原有精分的原始数据到HDFS分布式存储中,加载到Hive中做成原始数据仓库。
2.使用Hive做SQL做数据清洗预处理,制作成提取用户关键数据做数据集市。
3.加载处理后数据到Hbase中提供查询使用,小的结果数据导入到Oracle,Mysql中提供快速查询。
收起