如何从无到有的搭建数据仓库?(立项调研)

由于电子商务业务的不断增长,需要搭建ERP数据仓库。
目前情况:数据量越来越大,原有erp系统有部分统计功能。但是跟原有业务耦合性太高,统计报表消耗大量性能,影响原有业务进行。

现有以下疑问:

  1、产品的选型、是否参考行业内成功案例:市面上五花八门的产品,如何选择适合自己的产品,满足目前的也许需要,易于实施,并且能够满足公司在可预期的发展规模的情况下使用。ibm自有一套数据仓库产品线:ds、db2、cognos、spss等完全覆盖了数据仓库构建的各个阶段的需要。另外微软、oracle、informatica等公司也有自己的产品供我们选择。

  2、采用何种架构来搭建自己的数据仓库:自顶向下还是自下而上的构建。

    3、目前NoSQL非常火,是否要采用NoSQL工具来构建数据仓库

  4、数据仓库的建模不同于一般交易系统:我们平时说的ODS、UDM、多维层等都代表什么意思?

    5、数据仓库建模不同于一帮业务系统数据库,很多数据仓库系统都采用了多维建模的方式,有的却采取第三范式,各有什么优缺点?
参与7

6同行回答

jimmyjimmy数据仓库工程师招行软件中心
回复 7# dtwlong    。。。显示全部
回复 7# dtwlong


   。。。收起
银行 · 2015-05-19
浏览1466
dtwlongdtwlong软件开发工程师cmb
这是大神简密不啦显示全部
这是大神简密不啦收起
软件开发 · 2015-05-09
浏览1389
jimmyjimmy数据仓库工程师招行软件中心
回复 2# 苏州易博创云    感谢专家的答复,在产品选型和建模上对我帮助很大,谢谢显示全部
回复 2# 苏州易博创云


   感谢专家的答复,在产品选型和建模上对我帮助很大,谢谢收起
银行 · 2015-03-10
浏览1358
张东焕张东焕技术总监IBM官方授权讲师
数据仓库是面向主题的,业务系统是面向交易的。你的需求不是典型的数据仓库。更多的是业务量增长导致性能问题。建议采用数据复制+查询交易分离。其中数据复制可以采用DB2表分区技术或者Infosphere data replication或者HADR,实现当前数据和历史数据分离。...显示全部
数据仓库是面向主题的,业务系统是面向交易的。你的需求不是典型的数据仓库。更多的是业务量增长导致性能问题。建议采用数据复制+查询交易分离。其中数据复制可以采用DB2表分区技术或者Infosphere data replication或者HADR,实现当前数据和历史数据分离。收起
IT咨询服务 · 2015-03-07
浏览1406
Shane_QianShane_Qian数据库开发工程师18m
[此回答已删除]
浏览1188
新数科技新数科技IT顾问北京新数科技有限公司
问题很多,捡几个重要的回答,抛砖引玉:1. 产品的选型有条件的话最好参考同行业案例,数据仓库的建设与应用类型关联比较大,前人的好经验会让你少走很多弯路。除此之外,选型还有几个重要因素:硬件架构的考量,展现方式,自有或第三方技术能力等。问题中提到的几家几乎都有成套的方案,但...显示全部
问题很多,捡几个重要的回答,抛砖引玉:
1. 产品的选型有条件的话最好参考同行业案例,数据仓库的建设与应用类型关联比较大,前人的好经验会让你少走很多弯路。除此之外,选型还有几个重要因素:硬件架构的考量,展现方式,自有或第三方技术能力等。问题中提到的几家几乎都有成套的方案,但各有特点。举例说DB2 DPF share-nothing的构架性能不错,从etl到展现层的整个产品方案也比较成熟,硬件平台支持广泛;Oracle的一体机这两年比较有特色,稍贵但迎合一体机爱好者;Teradata在数据仓库方面实力强,但成本不菲;另外不可忽视的是SAP HANA,其全新的内存数据库架构在性能方面实力突出,即便在非SAP应用方面也是很有竞争力。

2. 自上而下和自下而上也争论了很多年,从产品构想来上看,自上而下更合理,先从业务需求看起,做蓝图,往下定规划;但从实际项目实施上,实施周期的压力使得自下而上更多见,搭了台子再唱戏。无论那种都有它的道理,但一个成熟可靠的方案势必是上下结合的,哪一方面也不能将就。

3. NoSQL类型的数据库往往在处理互联网时代的超大规模和高并发交易时有其特有优势,但针对传统企业数据仓库方面坦白讲不见得是合适选择,虽然这类系统只是OLAP,但依然对ACID和SQL有较强依赖性,另外NoSQL需要跟开发结合非常紧密(即程序员需要非常了解其内在),也缺乏成熟的周边商业产品支持(比如展现工具等),对传统企业来讲不大会从头至尾自身全部来开发整个应用系统,如果碰上复杂的业务逻辑更是比较麻烦,所以至今很少看到传统数据仓库完全架构其上。NoSQL与应用或其他大数据产品如Hadoop的结合倒是可以尝试。另外一些NewSQL的产品倒是比较适合数据库仓库类型,如内存数据库等技术是一种未来的趋势。收起
IT咨询服务 · 2015-03-05
浏览1391
苏州易博创云苏州易博创云CTO苏州易博创云网络科技有限公司
您是一个比较专业的用户,数据仓库平台建设来讲,建议以下方面的观点: 首先建设数据仓库不应该是由于数据量的增长,数据仓库是一个业务和技术相结合的产物,由业务需求驱动,建设才有意义. 针对您提出的五个问题,我做以下解答: 1) 数据仓库产品的选择,这个是很多企业最关心最...显示全部
您是一个比较专业的用户,数据仓库平台建设来讲,建议以下方面的观点:

首先建设数据仓库不应该是由于数据量的增长,数据仓库是一个业务和技术相结合的产物,由业务需求驱动,建设才有意义. 针对您提出的五个问题,我做以下解答:

1) 数据仓库产品的选择,这个是很多企业最关心最纠结的东西,从我们做过的案例来讲,我们推荐客户尽量选择自己熟悉的产品,使用自己身边的产品,技术的跨度对项目来讲影响是非常大的.同时也要考虑成本,当然如果您对成本无所谓,选择的就更多了.目前市场上比较全面的数据仓库产品有IBM,Teradata等,这两家的产品线最全,当然Oracle也很强大,SQL Server最近几年发展也不错,综合各个方面,建议选择IBM的数据仓库产品,如果您的业务系统是基于DB2的,那就更好了.

2) 这个问题就看您是应用驱动,还是数据驱动,如果是应用驱动,就是自上而下,毕竟应用最清楚需要什么样的数据支撑;如果数据驱动,那就自下而上,先从数据如手,再考虑上层应用,这将是一个企业级的数据仓库平台.无论乃个方案,从建设过程来讲都是一个分阶段推进的项目,采取自上而下的建设过程是比较合理的,也能将风险降到最低,但需要全面的详细的规划.

3) 是否采用NOSQL,取决于您的数据源和最终应用, 无论是NOSQL还是关系型数据库,都能实现您的目标,如果您对NOSQL比较熟悉,可以选择相关的产品,如果不熟悉,参考第一条,选择关系型数据库是最好的方案.

4) ODS/UDM是数据仓库建设过程中的其中一个路径而已,实际上是代表了数据仓库系统中对数据的逻辑区域划分,我们通常讲数据仓库成为EDW,企业级数据仓库平台,ODS/udm是其中的逻辑数据区,架构规划会设计这部分.

5)数据仓库的建模,不同的数据区根据应用目标要集合使用,比如ODS,贴源设计,采取宽表是很合理的;EDW中SDM可以采取3NF设计,因为必须按主题域设计,要融合不同源系统的数据,3NF是最合理的;DM(数据集市)、汇总数据区采取多维建模是合理的,因为他的数据来源于SDM,存储的是汇总、计算后的数据,采取多维模型设计更贴近应用需求,同时性能也是最高的。

以上观点,欢迎讨论,如有错别字还请见谅啊 ! :)收起
IT咨询服务 · 2015-03-05
浏览1434

提问者

jimmy
数据仓库工程师招行软件中心
擅长领域: 大数据数据库商业智能

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-03-04
  • 关注会员:1 人
  • 问题浏览:14213
  • 最近回答:2015-05-19
  • X社区推广