互联网服务大数据数据转换 spark hbase 数据源

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

数据源比方说是机场的航班数据，量在每天1亿。需要每天运行spark任务将航班数据转换为一定格式的结果数据（每天的结果数据有1亿，已经存在的结果数据30亿）。然后以结果数据的id做增量更新（原始结果有的话更新，没有的话插入，将每天的1亿更新到30亿里）

这种场景用mysql 或者 oracle的话有对应的语法，比如oracle的mergeinto 一次就做完，但是mysql 和oracle 难以支撑这么大的数据量。

hbase 又不支持 merge into这种语法，需要将结果数据全量加载进来再和每天处理的数据作比对，这个过程很慢而且对内存的压力很大。

请问专家，这种场景该如何选型解决？

参与17

3同行回答
系统集成
全部行业 互联网服务 系统集成 IT咨询服务
|
按赞同排序
按时间排序

redgreat数据库管理员leadcom

在用kettle的insert/update，抽取源数据的每天新增/变动量，跨库新增至目标数据库，缺点就是速度很慢，有时还莫名其妙的丢数据不更新！

系统集成 · 2017-07-05

浏览8992

查看赞同的人

提问者

研发工程师网易

评论1

问题来自

活动 - 大数据处理平台技术产品选型探讨

相关问题

中小银行的数据安全分类分级如何做？

金融机构可以采取哪些措施来保障大数据时代下的数据安全？

大数据实时数仓构建一般选型技术方案是怎样的？

医院科研大数据平台，对临床医生要能真正有所帮助，无论是数据还是图像？

基础架构与医院信息系统的融合问题？

相关资料

“十四五”大数据产业发展规划

构建RAC架构及异地单机Data_Guard实施文档

头豹：2022年中国大数据产业一级市场纵览

Ansible运维管理平台部署、维护与调优

企业数据中台建设方案

相关文章

迈入ChatGPT时代商业银行AI应用的发展趋势分析

大数据时代下，金融行业数据安全防护面临挑战与落地措施探讨

河南农商联合银行招大数据风控、软件开发、网络安全等专业人才(郑州）

招聘 | 苏州农商银行金融科技部、数字银行部发布6个岗位

某城商行数据中台压测收获

问题状态

发布时间：2017-07-05

关注会员：5 人

问题浏览：13009

最近回答：2017-07-05

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广