电信运营商的业务数据里结构化数据比较多,随着大数据项目的建设,现在已经有需求要将部分结构化数据存储到大数据平台,并提供查询和分析功能,而且还有关系型数据库和大数据平台之间的数据同步需求,针对这种需求,hadoop生态中应该怎样规划?
如果想冗余数据的话可以使用hive,查询的时候使用spark sql,但是hive底层走的是mapreduce,比较慢,你可以尝试将hive的底层驱动换成spark sql,
还可以将数据冗余到hbase,如果涉及到多维度查询可以使用二级索引
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30