etl
etl
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

问题

工业制造其它etl·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
对于大数据的ETL清洗来说,其清洗的主要是对于清洗规则的管理,对于数据在哪里?数据怎么去做分布式计算与汇总,并不需要大数据的ETL做管理,其主要监控自身任务的运行状态与进度,。另外还有任务与任务之间的依赖关系等。...
工业制造其它etl·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
这儿问题有点笼统了点,大数据环境下是不关心其抽取的过程内部的计算的优化,至于优化部分,一部分是计算任务的本身优化,另一部分是集群的参数优化。
政府机关多数据中心·2015-10-15
pwey · 中体骏彩 擅长领域:存储, 灾备, 虚拟化
296 会员关注
调度计算的确会减少很多数据交换,是个不错的方案,但终端的数据没有集中的需求么?
政府机关大数据平台·2015-10-15
pwey · 中体骏彩 擅长领域:存储, 灾备, 虚拟化
296 会员关注
基础架构硬件采用了哪些呢?
政府机关大数据平台·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
一套完整的ETL工具需要支持的内容应该更多的进行解耦,要能进行传统的ETL工作,又要能支持大数据环境下的情况,使其能够很好的运行起来。
金融其它系统运维·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
优化部分其实很多场景都有优化点,但是有个问题很明显,ETL独立的部署主机,已经HA相关的设计是很必要的,另外一些运行的任务要采用的方式都需要注意。网络方面的设置与本地磁盘的要求要看场景进行优化...
金融其它大数据平台·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
底层架构,对于传统的ETL很简单,更多的是对于数据库缓存的操作,例如JDBC方式等就能满足,但在大数据环境中,任务的启停任务的监控,需要的依赖更多,链接集群的方式也更为复杂
金融其它大数据平台·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
这个要看我们想要做到哪一步。对于大数据来说,场景很复杂,调度中心,计算内容,任务监控,集群监控,都属于集群需要考虑的部分。、
政府机关etl·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
主要来说要求并不高,如果我们采用的是Hadoop大数据环境。那么相对就很简单了,在一台Linux主机上安装一套完整的客户端,在其上安装ETL组件内容进行任务的管理与运行最好,
银行大数据平台·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
开源的很多,但是我们更倾向于自己做,如果要使用开源的可以看一下pentaho.

描述

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
X社区推广
  • 提问题