IT咨询服务大数据平台

大数据中数据采集有哪几种方式?

大数据中数据采集有哪几种方式?显示全部

大数据中数据采集有哪几种方式?

收起
参与15

查看其它 2 个回答xuyy的回答

xuyyxuyy联盟成员数据架构师秦皇岛银行

1) 通过系统日志采集大数据
用于系统日志采集的工具,目前使用最广泛的有:Hadoop 的Chukwa、ApacheFlumeAFacebook的Scribe和LinkedIn的Kafka等。这里主要学习Flume。
Flume是一个高可靠的分布式采集、聚合和传输系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据,同时对数据进行简单处理,并写到诸如文本、HDFS这些接受方中。
Flume的核心其实就是把数据从数据源收集过来,再将收集到的数据送到指定的目的地。
2) 通过网络采集大数据
网络采集是指通过网络爬虫或网站公开API等方式,从网站上获取大数据信息,该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集。
一般来说,网络爬虫工具基本可以分类3类:分布式网络爬虫工具(Nutch)、Java网络爬虫工具(Crawler4j、WebMagic、WebCollector)、非Java网络爬虫工具( Scrapy)。

银行 · 2023-01-16
浏览1103

回答者

xuyy
数据架构师秦皇岛银行
擅长领域: 人工智能大数据数据库

xuyy 最近回答过的问题

回答状态

  • 发布时间:2023-01-16
  • 关注会员:4 人
  • 回答浏览:1103
  • X社区推广