基于现有数据仓库,怎样将大数据平台进行整合及补充?

目前各行都有自己的数据仓库或数据集市平台,而大数据平台的引入又往往独立于数据仓库,对于某些场景,将结构化数据与非结构化数据进行整体结合往往能够起到更好的效果,如何能够将大数据平台和现有数据仓库进行有效整合?...显示全部
目前各行都有自己的数据仓库或数据集市平台,而大数据平台的引入又往往独立于数据仓库,对于某些场景,将结构化数据与非结构化数据进行整体结合往往能够起到更好的效果,如何能够将大数据平台和现有数据仓库进行有效整合?收起
参与7

查看其它 2 个回答百分点的回答

百分点百分点技术总监百分点
现有的数据仓库完全可以和大数据平台进行整合,现有数据仓库可以作为大数据平台的一个数据源和数据应用。

正如问题中描述,对于金融银行业,往往已经实施有数据仓库,这个时候如果盲目上大数据平台进行平台替换往往容易造成数据混乱,所以我们提供的建议是混搭先行,逐步替换,先替换那些传统手段不能解决的问题,再替换那些数据仓库已经存在的应用。现阶段数据仓库上下游生态圈丰富程度远远大于大数据生态圈,我们应该充分利用现有数据仓库上下游丰富的解决方案充分发挥传统数仓的价值,然后通过Hadoop等大数据产品来补充传统数仓对于非结构化数据处理不足的缺陷。随着大数据技术的发展,大数据产品(Hadoop等)各项功能和性能不断完善,再逐步把数仓之上已有业务应用迁移到大数据平台。

具体应用上,大数据可以选择以下一些切入点:1. 将大量数据的运算放到大数据平台进行(例如:两张oracle里面表数据分别是1000多万和800多万做8层join,放在大数据平台运算比在oracle里面运算至少快2倍多)
2. 对于跨数据库类型的表之间的join(例如:一张oracle的表,一张sqlserver的表).在传统的数据仓库中是没有办法join的。可以将数据通过sqoop等工具放到hdfs上面。利用hive,pig, impala,spark等进行更快的处理.
3. 将事务的处理和最终结果的分析报表数据考虑放到传统数据库。


以上也是我们在许多实践中总结出的大数据数据仓库建设和推广方法。
互联网服务 · 2015-07-03
浏览1918

回答者

百分点
技术总监百分点
擅长领域: 大数据大数据平台数据库

百分点 最近回答过的问题

回答状态

  • 发布时间:2015-07-03
  • 关注会员:0 人
  • 回答浏览:1918
  • X社区推广