通用的“软件栈”我个人理解为在处理流程顺序大都一致的情况下流程中每一步使用的软件,企业大数据平台大都数分为实时跟离线,结合“栈”的结构特色
实时:接触源数据一线软件即栈底,涉及源数据的获取同步,这一步可以产生的数据形式可以为一个个小文件或者数据直接送到一个消息队列中,Hbase可以设计为一个Queue当然要进行底层改造,接着对数据的处理的可以用storm,spark等,因为是实时的所以数据处理步骤不能太复杂,接着就可以注入内存数据库或者hbase中进行实时查询
离线:供选择的栈底软件比较多,因为他对数据的时效要求不高,所以这一步我觉得没有通用之说,至于栈中即经过简单处理的数据可以导入到hbase或者hive中建成数据仓库即离线查询的数据平台