请教学习大数据技术和理论的指导建议

公司的数据仓库已经运作一段时间了,我希望往大数据方向发展发展,但是不知道该怎么开始。所以请教一下大家:

1.基于数据仓库,怎么开展大数据的学习
2.数据仓库与大数据怎么才能很好的结合
3.有没有特别好的学习资料,我应该先好好的学习理论知识,还是通过一个工具比如Hadoop的学习来探讨理论知识。

恳请大家给予指导建议,谢谢各位!
参与22

8同行回答

humidyhumidy信息分析/架构师某公司
我一直认为以Hadoop为代表的大数据技术是传统EDW的很好补充,但目前还没有达到替代的程度,根据数据仓库在企业中的作用,我们常常将其定位为OLAP报表展现,专题分析和自助取数等用途。但随着企业数据量的增加和非结构化半结构化数据的重视,仓库的数据维度和存储遇到了处理能力和...显示全部
我一直认为以Hadoop为代表的大数据技术是传统EDW的很好补充,但目前还没有达到替代的程度,根据数据仓库在企业中的作用,我们常常将其定位为OLAP报表展现,专题分析和自助取数等用途。但随着企业数据量的增加和非结构化半结构化数据的重视,仓库的数据维度和存储遇到了处理能力和实时扩容的压力,于是我们会首先从成本上考虑采用基于X86的通用架构来做一些辅助工作。如非结构化数据的ETL,传统仓库历史数据的保留。传统仓库只读数据的查询,和仓库的一些专题分析等工作。

对于构建EDW辅助大数据技术方面,我们可以选择的还是很多,除了底层的HDFS和YARN比较通用外,我们在YARN上的计算框架上会选择MR来做批处理计算。Spark来做交互式计算。Hbase来做清单查询。对于用户我们推荐使用更高层的抽象HIve和Pig来完成对计算框架的操作。另外我们可能还需要一些辅助的组件如流程调度Oozie和一些IDE,以及HUE来帮助我们更好的使用底层平台。对于安全我们可以考虑Sentry来做一些细粒度的控制。对于HIve上层可以提供JDBC/ODBC以及REST服务。用来对接很多的BI工具,方便数据的展现。

对于Hadoop生态系统的发展的一个重要方向是SQL ON Hadoop,这块会成为仓库的一个很好的补充。相信在这几年Hadoop在数据分析上的应用会更广。

所以,基于Hadoop的大数据技术是传统EDW的一个非常好的补充,值得投入精力去尝试和使用!收起
电信运营商 · 2015-07-28
浏览1105
yuvvyuvv其它联动优势
您好!对于数据仓库和大数据应用本人有一些心得和体会,希望对您有所帮助!首先从数据仓库的角度来谈,数据仓库绝大多数是对内的其他业务线进行数据分析手段的数据服务支撑,一般组成形式为内部的企业级数据整合,建模和支撑在技术上属于数据技术的OLAP形式较多,展现形式为Analytic V...显示全部
您好!对于数据仓库和大数据应用本人有一些心得和体会,希望对您有所帮助!
首先从数据仓库的角度来谈,数据仓库绝大多数是对内的其他业务线进行数据分析手段的数据服务支撑,一般组成形式为内部的企业级数据整合,建模和支撑在技术上属于数据技术的OLAP形式较多,展现形式为Analytic Visualizations(可视化分析)或BI等,此类应用为数据应用的最基础层面,但随时数据存储技术的发展和大数据概念的推行,逐渐在存储上应用到了Hadoop架构的分布式搭建,但这不能说明数据仓库就失去了本来的意义,大数据的含义不仅仅是在数据量级的区别,更包括数据种类的多样性结合,一般情况下公司在大数据层面的投入都是结合到对外数据产品服务上的(BAT类公司因为企业内部业务繁多,故除外,当然BAT也有数据产品对外服务),所以个人建议如果想从企业内数据仓库应用扩展到大数据层面,首先需要对目前社会和政策接受大数据的情况,以及大数据投入的产出比,因为会涉及到数据源采购的问题,业务单一的企业只能说是数据量的大,但不能说数据的全,就当下而论,例如目前国家推行征信就是一个很好利用大数据的应用场景(需要结合多种数据源,完善大数据的全),这个是回答您的一个问题。

您的第二个问题是数据仓库与大数据怎样结合,实际上就分析的角度上而谈,依旧是数据仓库才是分析技术的主体结构(星型模型),大数据的底层是分布式扁平结构,优势是数据仓库便于分析(粒度灵活,因为有数据集市),而hadoop架构的特点是数据存储扁平化,存储和查询速度快,但在聚合分析等算法和函数使用上有很大限制,所以结合方式为Hadoop进行存储-上层为DW为数据分析底层,对外的产品服务为结合多种数据源情况下的数据挖掘产品(数据仓库侧重分析,大数据侧重数据挖掘),因为大数据的投入是一大笔的资金,不涉及到投入产出比很难在公司推行下去。

您的第三个问题希望可以从网上找寻一些相关的技术文档,或可以参加相关的技术沙龙进行了解,个人建议学习HADOOP和大数据之前应该了解一下未来的行业应用场景和数据业务在中国的发展趋势以后才投入精力去深入学习。谢谢!收起
互联网服务 · 2015-07-25
浏览1096
yayainyayain数据仓库工程师UNION PAY
kylin已经可以实现基于hdfs的olap钻取效果,目前不支持mdx,大多数cube上下钻还是要搞成hive sql的形式发送到cube去做查询。显示全部
kylin已经可以实现基于hdfs的olap钻取效果,目前不支持mdx,大多数cube上下钻还是要搞成hive sql的形式发送到cube去做查询。收起
银行 · 2015-08-17
浏览912
amu0722amu0722CEO打毛党
lz我遇到了最近跟你一样的疑问显示全部
lz我遇到了最近跟你一样的疑问收起
生活生产服务其它 · 2015-07-28
浏览935
amu0722amu0722CEO打毛党
回复 5# humidy     老大,太专业了 拓展了~~显示全部
回复 5# humidy


    老大,太专业了 拓展了~~收起
生活生产服务其它 · 2015-07-28
浏览937
hikeplayguitarhikeplayguitar研发工程师山东城市商业银行联盟
回复 5# humidy     非常感谢您的回复!看不太懂,反复看好几遍,查找些资料才能看懂!显示全部
回复 5# humidy


    非常感谢您的回复!看不太懂,反复看好几遍,查找些资料才能看懂!收起
软件开发 · 2015-07-28
浏览962
zhanglinszhanglins软件开发工程师协和
回复 2# yuvv 学习了!深受用!显示全部
回复 2# yuvv

学习了!深受用!收起
互联网服务 · 2015-07-27
浏览955
hikeplayguitarhikeplayguitar研发工程师山东城市商业银行联盟
回复 2# yuvv    非常感谢您的回复显示全部
回复 2# yuvv


   非常感谢您的回复收起
软件开发 · 2015-07-27
浏览931

提问者

hikeplayguitar
研发工程师山东城市商业银行联盟
擅长领域: 大数据商业智能cognos

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-07-25
  • 关注会员:2 人
  • 问题浏览:7561
  • 最近回答:2015-08-17
  • X社区推广