互联网服务大数据数据转换 spark hbase 数据源

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

数据源比方说是机场的航班数据，量在每天1亿。需要每天运行spark任务将航班数据转换为一定格式的结果数据（每天的结果数据有1亿，已经存在的结果数据30亿）。然后以结果数据的id做增量更新（原始结果有的话更新，没有的话插入，将每天的1亿更新到30亿里）这种场景用mysql 或者 oracle的...显示全部

关注5

参与17

查看其它 2 个回答美国队长的回答

美国队长研发工程师Alibaba

可以从你的底层存储方式着手，比如你的30亿数据是否可以划分成3层，内存区，热存储区，冷数据区，新的数据过来，先放内存，然后后台进程自动对内存中的数据跟热区数据进行比对是否存在，设置数据降级机制，哪些数据可能用的比较少可以先从内存中降级到热存储区
如果你想用hbase的话，建议你根据你的业务场景事先分配好region，1天的数据过来再插入之前可以用bloomfilter这个高效率的判断是否存在而不需要全部数据都加载到内存中，然后利用批量bulkload的方式，当然你要注意你的memstore设置大小，你的hstore设置大小
不管哪种数据插入方式肯定都后台去执行的插入操作。
个人想法，有错地方还请指出

互联网服务 · 2017-07-05

查看赞同的人

z630860668 邀答

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

查看其它 2 个回答美国队长的回答

回答者

美国队长最近回答过的问题

回答状态

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

查看其它 2 个回答美国队长的回答

回答者

美国队长 最近回答过的问题

回答状态

美国队长最近回答过的问题