一般适合用简单的格式,便于数据的拆解和组装,您说的文本是一种,还有比如json也是一种常见的方式。源数据的采集是个大话题,一般的方式的本地采集,然后逐层汇总/筛选,再通过队列进行集中(相对的),这样的好处是:本地采集让采集完全分布式,提高效率有一层汇总/筛选可以过滤不合法信息通...
显示全部一般适合用简单的格式,便于数据的拆解和组装,您说的文本是一种,还有比如json也是一种常见的方式。
源数据的采集是个大话题,一般的方式的本地采集,然后逐层汇总/筛选,再通过队列进行集中(相对的),这样的好处是:
- 本地采集让采集完全分布式,提高效率
- 有一层汇总/筛选可以过滤不合法信息
- 通过队列还降低耦合
- 相对的集中汇总便于对数据的后期分析
实时性取决于网络和服务的性能,做的好的话保持在毫秒级也不是不可实现的
收起