我一直认为以Hadoop为代表的大数据技术是传统EDW的很好补充,但目前还没有达到替代的程度,根据数据仓库在企业中的作用,我们常常将其定位为OLAP报表展现,专题分析和自助取数等用途。但随着企业数据量的增加和非结构化半结构化数据的重视,仓库的数据维度和存储遇到了处理能力和...
显示全部我一直认为以Hadoop为代表的大数据技术是传统EDW的很好补充,但目前还没有达到替代的程度,根据数据仓库在企业中的作用,我们常常将其定位为OLAP报表展现,专题分析和自助取数等用途。但随着企业数据量的增加和非结构化半结构化数据的重视,仓库的数据维度和存储遇到了处理能力和实时扩容的压力,于是我们会首先从成本上考虑采用基于X86的通用架构来做一些辅助工作。如非结构化数据的ETL,传统仓库历史数据的保留。传统仓库只读数据的查询,和仓库的一些专题分析等工作。
对于构建EDW辅助大数据技术方面,我们可以选择的还是很多,除了底层的HDFS和YARN比较通用外,我们在YARN上的计算框架上会选择MR来做批处理计算。Spark来做交互式计算。Hbase来做清单查询。对于用户我们推荐使用更高层的抽象HIve和Pig来完成对计算框架的操作。另外我们可能还需要一些辅助的组件如流程调度Oozie和一些IDE,以及HUE来帮助我们更好的使用底层平台。对于安全我们可以考虑Sentry来做一些细粒度的控制。对于HIve上层可以提供JDBC/ODBC以及REST服务。用来对接很多的BI工具,方便数据的展现。
对于Hadoop生态系统的发展的一个重要方向是SQL ON Hadoop,这块会成为仓库的一个很好的补充。相信在这几年Hadoop在数据分析上的应用会更广。
所以,基于Hadoop的大数据技术是传统EDW的一个非常好的补充,值得投入精力去尝试和使用!
收起