Hadoop企业软件栈

今年是Hadoop的10周年,Hadoop已从原来HDFS、MapReduce单一批处理框架演变成HDFS、YARN的支持批处理、交互式Ad hoc和实时计算的综合框架。围绕Hadoop已形成一个涵盖60多个组件的生态系统。我的问题是,针对企业大数据平台构建,你有没有一个比较通用的Hadoop组件构成的软件栈...显示全部

今年是Hadoop的10周年,Hadoop已从原来HDFS、MapReduce单一批处理框架演变成HDFS、YARN的支持批处理、交互式Ad hoc和实时计算的综合框架。围绕Hadoop已形成一个涵盖60多个组件的生态系统。我的问题是,针对企业大数据平台构建,你有没有一个比较通用的Hadoop组件构成的软件栈。对这个软件栈你是怎么理解的。

收起
参与7

查看其它 1 个回答美国队长的回答

美国队长美国队长研发工程师Alibaba

通用的“软件栈”我个人理解为在处理流程顺序大都一致的情况下流程中每一步使用的软件,企业大数据平台大都数分为实时跟离线,结合“栈”的结构特色

实时:接触源数据一线软件即栈底,涉及源数据的获取同步,这一步可以产生的数据形式可以为一个个小文件或者数据直接送到一个消息队列中,Hbase可以设计为一个Queue当然要进行底层改造,接着对数据的处理的可以用storm,spark等,因为是实时的所以数据处理步骤不能太复杂,接着就可以注入内存数据库或者hbase中进行实时查询

离线:供选择的栈底软件比较多,因为他对数据的时效要求不高,所以这一步我觉得没有通用之说,至于栈中即经过简单处理的数据可以导入到hbase或者hive中建成数据仓库即离线查询的数据平台

互联网服务 · 2016-04-18
浏览1692

回答者

美国队长
研发工程师Alibaba
擅长领域: 大数据大数据平台数据库

美国队长 最近回答过的问题

回答状态

  • 发布时间:2016-04-18
  • 关注会员:2 人
  • 回答浏览:1692
  • X社区推广