大数据平台的数据采集用什么格式的哪?

大数据平台的源数据格式一般用什么类型的哪?文本文件吗?那各个源系统的数据采集策略如何规划哪?例如实时性大概什么样子的哪?显示全部

大数据平台的源数据格式一般用什么类型的哪?文本文件吗?
那各个源系统的数据采集策略如何规划哪?例如实时性大概什么样子的哪?

收起
参与16

查看其它 2 个回答sprewellkobe的回答

sprewellkobesprewellkobe专有云TX

一般适合用简单的格式,便于数据的拆解和组装,您说的文本是一种,还有比如json也是一种常见的方式。

源数据的采集是个大话题,一般的方式的本地采集,然后逐层汇总/筛选,再通过队列进行集中(相对的),这样的好处是:

  • 本地采集让采集完全分布式,提高效率
  • 有一层汇总/筛选可以过滤不合法信息
  • 通过队列还降低耦合
  • 相对的集中汇总便于对数据的后期分析

实时性取决于网络和服务的性能,做的好的话保持在毫秒级也不是不可实现的

互联网服务 · 2017-07-07
浏览4070

回答者

sprewellkobe
专有云TX
擅长领域: 云计算安全网络

sprewellkobe 最近回答过的问题

回答状态

  • 发布时间:2017-07-07
  • 关注会员:4 人
  • 回答浏览:4070
  • X社区推广