互联网服务大数据数据转换 spark hbase 数据源

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

数据源比方说是机场的航班数据，量在每天1亿。需要每天运行spark任务将航班数据转换为一定格式的结果数据（每天的结果数据有1亿，已经存在的结果数据30亿）。然后以结果数据的id做增量更新（原始结果有的话更新，没有的话插入，将每天的1亿更新到30亿里）这种场景用mysql 或者 oracle的...显示全部

关注5

参与17

查看其它 2 个回答Jhon的回答

Jhon技术经理小学生

在数据字段上加入哈希值通过分组验证插入分组策略自定义从实际上取消数据库的读运算减少数据库的读压力，插入也是分组的一般在数据库上做了分区，有多个的缓冲池可以大大加速插入

IT咨询服务 · 2017-07-05

查看赞同的人

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

查看其它 2 个回答Jhon的回答

回答者

Jhon 最近回答过的问题

回答状态