gbase是南大通用的mpp产品,属于国产数据库,它和hbase比较,一是gbase属于mpp,分布式数据库产品,几乎支持全部sql92,支持复杂的sql、关联等,非常擅长于数据仓库,但对于高并发则不擅长。而hbase则仅支持简单的sql,不支持复杂sql和
x86用于spark和其他处理,power linux用于hadoop,因为hadoop存放最明细数据,规模庞大,如果单机处理能力和存储能力足够大,则可以大幅降低集群规模,这种情况下,考虑到机房,就选择power linux做hadoop,power linux相较x86,单机处理
我们在处理位置信息时是统一以一种信令为准的,比如GN口,在王源上确保位置是准确的,后续大数据处理时会带来很大的方便。以socket接口或小文件方式先后处理。
计划引入新的power 8的,集成度更高,性能更强,2U空间就能支持大容量本地盘,更适合大数据场景,未来x86和power linux预计会并行。未来的服务器发展,就是空间越小,容量更大,处理能力更强,无论x86还是power linux,都在向这一方向演
以某电信行业大数据平台为例:关系型数据库是小型前台报表库,存放大数据加工好的数据,前台展示用。DB2则由于历史原因,用于集团接口数据库,后期将逐步演进为分布式架构,hbase主要用于高并发查询,如日志查询,它的数据来源于ETL
可以考虑因为分布式采集和分布式消息队列机制实现,例如采用kafka/flume,一个可参考处理流程如下:1、分布式采集:负责从各个业务应用节点上实时采志数据,可以指定目录或文件,通过flume实现,仅增量采集数据。2、分布式消息层:由
streams是IBM公司的一款商用软件,且是真正的实时流处理,价格较贵,但很成熟,应用很广,spark-streaming则是开源的软件,实现的是小型批量的流处理,延迟度低于streams,二者是有区别的,我们综合性价比考虑,定位场景不同,最实时的业务
关系型数据库是小型前台报表库,存放大数据加工好的数据,前台展示用。DB2则是历史原因,用于集团接口数据库,后期将逐步演进为分布式架构,hbase主要用于高并发查询,如日志查询,它的数据来源于ETL加工处理好的明细数据。
随着spark技术越来越成熟,其采用的内存计算的方式,效率比hadoop快10倍,而且文件系统支持建立在hadoop的hdfs上,可从批量处理向实时批量处理过度,我们计划后期hadoop逐步演进为全spark架构,但因为对内存有较高需求,需要对现有
oracle和hadoop或其他文件系统的都有用的,集团规范是用hadoop,因为hbase可以支持高并发查询,某移动公司为例,每月通话详单40T,需要在线查询7个月,采用传统oracle则会非常大,从性能、投入方面得不偿失,同时详单的存放,应用逻辑
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30