IT咨询服务大数据平台

大数据中数据采集有哪几种方式？

参与15

3 同行回答

银行
全部行业 互联网服务 银行 IT咨询服务

|

按赞同排序

按时间排序

xuyy

数据架构师某银行

1) 通过系统日志采集大数据
用于系统日志采集的工具，目前使用最广泛的有：Hadoop 的Chukwa、ApacheFlumeAFacebook的Scribe和LinkedIn的Kafka等。这里主要学习Flume。
Flume是一个高可靠的分布式采集、聚合和传输系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据，同时对数据进行简单处理，并写到诸如文本、HDFS这些接受方中。
Flume的核心其实就是把数据从数据源收集过来，再将收集到的数据送到指定的目的地。
2) 通过网络采集大数据
网络采集是指通过网络爬虫或网站公开API等方式，从网站上获取大数据信息，该方法可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集。
一般来说，网络爬虫工具基本可以分类3类：分布式网络爬虫工具（Nutch）、Java网络爬虫工具（Crawler4j、WebMagic、WebCollector）、非Java网络爬虫工具（ Scrapy）。

收起

银行 · 2023-01-16

查看赞同的人

ChatGPT 回答

大数据中数据采集的方式有以下几种：

手动输入：即人工手动输入数据，这种方式适用于数据量较小的情况，但是容易出现错误，效率也较低。
数据抓取：通过网络爬虫等技术，从互联网上抓取数据。这种方式可以快速获取大量数据，但是需要注意法律法规和道德规范，避免侵犯他人权益。
日志收集：通过收集系统、应用程序等产生的日志数据，来获取有关系统运行、用户行为等方面的数据。这种方式可以获取大量数据，但需要对日志进行处理和分析。
传感器数据采集：通过传感器等设备采集环境、设备等方面的数据。这种方式可以获取实时数据，但需要注意设备的安装和维护。
数据交换：通过与其他组织或个人进行数据交换，获取数据。这种方式可以获取其他组织或个人的数据，但需要注意数据安全和合法性。

以上是大数据中常见的数据采集方式，不同的方式适用于不同的场景和需求。

大数据中数据采集有哪几种方式？

3 同行回答

银行
全部行业 互联网服务 银行 IT咨询服务

|

按赞同排序

按时间排序

ChatGPT 回答

提问者

相关问题

相关资料

相关文章

问题状态

大数据中数据采集有哪几种方式？

3 同行回答 银行 全部行业 互联网服务银行IT咨询服务 | 按赞同排序 按时间排序

ChatGPT 回答

提问者

相关问题

相关资料

相关文章

问题状态

3 同行回答

银行
全部行业互联网服务银行 IT咨询服务

|

按赞同排序

按时间排序