hive和spark都提供类sql的接口,各适合什么样的应用场景。spark是否适用于像日终批量处理这种大批量数据的加工? 基于mllib的分析对开发者要求较高,是否有可视化工具或者简单的分析工具去方便业务人员去用?
目前有没有一些开源成熟的组件可以引入呢?
嗯,这种情况下,我们打算引入分布式内存库技术,比如hana、比如gemfire等
即席查询也会存在高并发的场景,这是spark不擅长的领域。返回数据量大的时候,譬如明细类的查询,可能会出现spark不稳定的情况
基于mllib的分析对开发者要求较高,编程复杂,考虑到开发难度,应该尽量避免编程,建议采用成熟的产品替代实现。
hive适合数据仓库类处理,批量统计查询。
spark适合即席查询等实时类业务场景。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30