互联网服务大数据数据转换 spark hbase 数据源

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

数据源比方说是机场的航班数据，量在每天1亿。需要每天运行spark任务将航班数据转换为一定格式的结果数据（每天的结果数据有1亿，已经存在的结果数据30亿）。然后以结果数据的id做增量更新（原始结果有的话更新，没有的话插入，将每天的1亿更新到30亿里）这种场景用mysql 或者 oracle的...显示全部

关注5

参与17

查看其它 2 个回答redgreat的回答

redgreat数据库管理员leadcom

在用kettle的insert/update，抽取源数据的每天新增/变动量，跨库新增至目标数据库，缺点就是速度很慢，有时还莫名其妙的丢数据不更新！

系统集成 · 2017-07-05

查看赞同的人

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

查看其它 2 个回答redgreat的回答

回答者

redgreat 最近回答过的问题

回答状态