1、ETL工具特别多,因为ETL本身并不是特别难理解,就是把数据从一个数据库搬到另一个数据库,中间作了一些处理,工具就是实现了这样一个功能。我比较熟悉的工具是informtaica powercenter、datastage、SSIS、kettle、ODI等。ETL产品的选型通常跟企业规模,行业,成本,其它数据仓库产...
显示全部
1、ETL工具特别多,因为ETL本身并不是特别难理解,就是把数据从一个数据库搬到另一个数据库,中间作了一些处理,工具就是实现了这样一个功能。我比较熟悉的工具是informtaica powercenter、datastage、SSIS、kettle、ODI等。ETL产品的选型通常跟企业规模,行业,成本,其它数据仓库产品(某些产品是捆绑销售或者“买一送一”)等有关系。某些大型企业或者国家机关会选用datastage、informatica等产品,甚至同时存在好几个etl产品。某些小企业,或者研发能力强的企业也会选择开源的产品(如kettle)或者进行二次开发。
2、支持数据源、转换功能、加载更新、对数据模型的管理、 数据质量管理等方面这些确实是ETL工具采购时重点考虑的因素。大部分工具都支持众多的数据源,丰富的转化和加载组建。对于数据模型的管理分两部分,一部分是将元数据存储在数据库里,如informatica,另一部分则存储在文件中,如kettle。数据质量管理方面,基本上单纯的etl工具不存在数据质量管理的功能,数据质量管理都是用别的工具来实现,ibm、informatica等均有自己的数据质量管理工具。
3、掌握一两个工具,并且理解ETL的核心思想,那么其他工具也会很容易掌握。
收起