对于30亿甚至更大数据的增量更新,选用什么大数据方案比较好?

数据源比方说是机场的航班数据,量在每天1亿。需要每天运行spark任务将航班数据转换为一定格式的结果数据(每天的结果数据有1亿,已经存在的结果数据30亿)。然后以结果数据的id做增量更新(原始结果有的话 更新,没有的话插入,将每天的1亿更新到30亿里)这种场景用mysql 或者 oracle的...显示全部

数据源比方说是机场的航班数据,量在每天1亿。需要每天运行spark任务将航班数据转换为一定格式的结果数据(每天的结果数据有1亿,已经存在的结果数据30亿)。然后以结果数据的id做增量更新(原始结果有的话 更新,没有的话插入,将每天的1亿更新到30亿里)

这种场景用mysql 或者 oracle的话有对应的语法,比如oracle的mergeinto 一次就做完,但是mysql 和oracle 难以支撑这么大的数据量。

hbase 又不支持 merge into这种语法,需要将结果数据全量加载进来再和每天处理的数据作比对,这个过程很慢而且对内存的压力很大。

请问专家,这种场景该如何选型解决?

收起
参与17

查看其它 2 个回答Jhon的回答

JhonJhon技术经理小学生

在数据字段上加入哈希值 通过分组验证插入 分组策略自定义 从实际上取消数据库的读运算 减少数据库的读压力,插入也是分组的 一般在数据库上做了分区 ,有多个的缓冲池 可以大大加速插入

IT咨询服务 · 2017-07-05
浏览9074

回答者

Jhon
技术经理小学生
擅长领域: 存储灾备服务器

Jhon 最近回答过的问题

回答状态

  • 发布时间:2017-07-05
  • 关注会员:5 人
  • 回答浏览:9074
  • X社区推广