实时数仓的主流技术架构及组件选型?

实时数仓的主流技术架构有哪些,分别适应哪些典型场景,各组件的选择考虑哪些因素?实时数仓如何与批量数据整合提供数据服务?

2回答

jamieejamiee  数据库架构师 , 某股份制银行
半夏蒲公英长诗佐酒赞同了此回答
实时数据采集方面讲有OGG可以通过数据库日志的方式采集数据,Flume和logstash通过日志抓取数据,APM、F5等工具通过流量镜像抓取数据。从数据加工角度来讲,有Kafka、rabbitMQ等队列进行数据接收和消费,有Storm进行流式数据计算处理。从数据存储方面有redis、voltdb等内存数据库...显示全部

实时数据采集方面讲有OGG可以通过数据库日志的方式采集数据,Flume和logstash通过日志抓取数据,APM、F5等工具通过流量镜像抓取数据。
从数据加工角度来讲,有Kafka、rabbitMQ等队列进行数据接收和消费,有Storm进行流式数据计算处理。
从数据存储方面有redis、voltdb等内存数据库进行实时的数据和指标加工。
实时数据的处理结果可以异步持久化成文件,每天写成的文件可以在T+1日用于批量数据整合,这样处理批量数据的接口几乎不用特别修改,把实时数据处理当成一个批量数据源就成。

收起
 2019-08-31
浏览265
王奇王奇  项目经理 , 阜新银行
半夏蒲公英长诗佐酒赞同了此回答
OGG :抽取和解析日志。做为数据的源头数据的传输:FLUME ,LOGSTASH  个人理解:FLUME更注重数据的归集和分发。LOGSTASH 更多的是数据的过滤。KAFKA:消息的订阅和发布。时时计算:SPARK-STREAMING.存储:REDIS...显示全部

OGG :抽取和解析日志。做为数据的源头
数据的传输:FLUME ,LOGSTASH  个人理解:FLUME更注重数据的归集和分发。LOGSTASH 更多的是数据的过滤。
KAFKA:消息的订阅和发布。
时时计算:SPARK-STREAMING.
存储:REDIS

收起
 2019-08-30
浏览258

提问者

Petergu信息分析/架构师, 渤海

问题状态

  • 发布时间:2019-08-29
  • 关注会员:3 人
  • 问题浏览:1186
  • 最近回答:2019-08-31
  • 关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
    © 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30