TDW对数据仓库Hive的优化

正在加载中...

试读已结束

继续阅读请 1 金币购买后下载

立即下载

资料简介:
一、开源项目TDW介绍

腾讯分布式数据仓库 ( Tencent distributed Data Warehouse,以下简称TDW) 是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,并在开源软件的基 础上做了大量的定制和优化。目前TDW是腾讯内部规模最大的分布式系统,集中了腾讯内部各个产品的数据,为腾讯的各个产品提供海量数据存储和分析服务,包 括数据挖掘、产品报表、经营分析等服务。

历时四年多的研发和运营,目前,TDW平台已经成熟,进入稳定运营阶段,机器总量达到8,000台以上,最大集群超过5,600个节点,覆盖公司90%以上 的业务产品;TDW集成开发环境在腾讯内的总用户数约1500人,活跃用户数达到700以上,每日运行的分析SQL数达到100,000以上,每日SQL 翻译成MR job数达到1000,000以上。可以说,TDW是名副其实的“海量”系统。

二、Hive在TDW中的应用

Hive 是Apache基金会下的一个在Hadoop上构建数据仓库的开源软件,它支持通过类SQL的HQL语言操作结构化数据。Hive的主要功能是将类SQL 的HQL语言翻译成MapReduce代码并在Hadoop上运行。Hive的出现使使用Hadoop做大数据分析变得更简单,节省了数据分析人员编译和 调试MapReduce代码的繁琐工作。目前,Hive在国内互联网公司应用很多。

TDW作为一个数据仓库产品,对外主要提供SQL语言接口。TDW中的SQL解析,主要是基于Hive实现的,在TDW中,Hive作为TDW的查询引擎(Query Engine,简称QE)而存在。

2014-06-20
页数12
浏览3176
下载17

已下载用户的评价7.41分

您还未下载该资料,不能发表评价;
查看我的 待评价资源
williamleeltbiwilliamleeltbi商业智能工程师Foxconn2014-06-20
没用
好资料,值得一看!

贡献者

ce97软件开发工程师,某某某

相关资料

X社区推广