Hadoop企业软件栈

今年是Hadoop的10周年,Hadoop已从原来HDFS、MapReduce单一批处理框架演变成HDFS、YARN的支持批处理、交互式Ad hoc和实时计算的综合框架。围绕Hadoop已形成一个涵盖60多个组件的生态系统。我的问题是,针对企业大数据平台构建,你有没有一个比较通用的Hadoop组件构成的软件栈。对这个软件栈你是怎么理解的。

参与7

2同行回答

美国队长美国队长研发工程师Alibaba
通用的“软件栈”我个人理解为在处理流程顺序大都一致的情况下流程中每一步使用的软件,企业大数据平台大都数分为实时跟离线,结合“栈”的结构特色实时:接触源数据一线软件即栈底,涉及源数据的获取同步,这一步可以产生的数据形式可以为一个个小文件或者数据直接送到一个消息队...显示全部

通用的“软件栈”我个人理解为在处理流程顺序大都一致的情况下流程中每一步使用的软件,企业大数据平台大都数分为实时跟离线,结合“栈”的结构特色

实时:接触源数据一线软件即栈底,涉及源数据的获取同步,这一步可以产生的数据形式可以为一个个小文件或者数据直接送到一个消息队列中,Hbase可以设计为一个Queue当然要进行底层改造,接着对数据的处理的可以用storm,spark等,因为是实时的所以数据处理步骤不能太复杂,接着就可以注入内存数据库或者hbase中进行实时查询

离线:供选择的栈底软件比较多,因为他对数据的时效要求不高,所以这一步我觉得没有通用之说,至于栈中即经过简单处理的数据可以导入到hbase或者hive中建成数据仓库即离线查询的数据平台

收起
互联网服务 · 2016-04-18
浏览1684
humidyhumidy信息分析/架构师某公司
恩,我也认为一个企业级的平台需要满足批处理、实时计算、交互式计算这几个特性,所以基于这几个特性可以根据不同的组件来组合,从采集到存储到资源分配到计算引擎到模型设计和展现这些层次来设计!...显示全部

恩,我也认为一个企业级的平台需要满足批处理、实时计算、交互式计算这几个特性,所以基于这几个特性可以根据不同的组件来组合,从采集到存储到资源分配到计算引擎到模型设计和展现这些层次来设计!

收起
电信运营商 · 2016-04-18
浏览1548

提问者

humidy
信息分析/架构师某公司
擅长领域: 大数据商业智能数据库

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2016-04-15
  • 关注会员:2 人
  • 问题浏览:4946
  • 最近回答:2016-04-18
  • X社区推广