大数据平台的数据采集用什么格式的哪?

大数据平台的源数据格式一般用什么类型的哪?文本文件吗?
那各个源系统的数据采集策略如何规划哪?例如实时性大概什么样子的哪?

参与16

3同行回答

sprewellkobesprewellkobe  专有云 , TX
一般适合用简单的格式,便于数据的拆解和组装,您说的文本是一种,还有比如json也是一种常见的方式。源数据的采集是个大话题,一般的方式的本地采集,然后逐层汇总/筛选,再通过队列进行集中(相对的),这样的好处是:本地采集让采集完全分布式,提高效率有一层汇总/筛选可以过滤不合法信息通...显示全部

一般适合用简单的格式,便于数据的拆解和组装,您说的文本是一种,还有比如json也是一种常见的方式。

源数据的采集是个大话题,一般的方式的本地采集,然后逐层汇总/筛选,再通过队列进行集中(相对的),这样的好处是:

  • 本地采集让采集完全分布式,提高效率
  • 有一层汇总/筛选可以过滤不合法信息
  • 通过队列还降低耦合
  • 相对的集中汇总便于对数据的后期分析

实时性取决于网络和服务的性能,做的好的话保持在毫秒级也不是不可实现的

收起
互联网服务 · 2017-07-07
浏览4018
美国队长美国队长  研发工程师 , Alibaba
你的问题要想回答很细会很长,但是概况一下就是源数据用什么类型不外呼文本文件,消息中间件,数据库采集策略如何规划每个公司不同,也就是打点的规则不同,有嵌入应用中采集,有采用第三方js脚本采集,还有直接从webserver日志日文件中解析,实时性一般都是结合消息中间件来实现后面跟...显示全部

你的问题要想回答很细会很长,但是概况一下就是源数据用什么类型不外呼文本文件,消息中间件,数据库
采集策略如何规划每个公司不同,也就是打点的规则不同,有嵌入应用中采集,有采用第三方js脚本采集,还有直接从webserver日志日文件中解析,实时性一般都是结合消息中间件来实现后面跟一个流式处理框架比如storm spark streaming等

收起
互联网服务 · 2017-07-07
浏览3833
xuanshikejixuanshikeji  硬件开发工程师 , 唐山轩氏科技有限公司
[此回答已删除]
浏览2692

提问者

wangzk0206
数据库管理员scrcu

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-07-06
  • 关注会员:4 人
  • 问题浏览:7592
  • 最近回答:2017-09-13
  • X社区推广