一般适合用简单的格式,便于数据的拆解和组装,您说的文本是一种,还有比如json也是一种常见的方式。
源数据的采集是个大话题,一般的方式的本地采集,然后逐层汇总/筛选,再通过队列进行集中(相对的),这样的好处是:
实时性取决于网络和服务的性能,做的好的话保持在毫秒级也不是不可实现的
收起你的问题要想回答很细会很长,但是概况一下就是源数据用什么类型不外呼文本文件,消息中间件,数据库
采集策略如何规划每个公司不同,也就是打点的规则不同,有嵌入应用中采集,有采用第三方js脚本采集,还有直接从webserver日志日文件中解析,实时性一般都是结合消息中间件来实现后面跟一个流式处理框架比如storm spark streaming等