通常实时数据处理采用像 storm、flink、spark streaming 这些方式进行处理,然后存储到 hbase、hdfs 等地方。使用这些技术的特点是需要针对自己的情况开发程序,然后部署、调试、监控,非常复杂,也是一般企业比较难掌握的。
Apache Kylin 是一个流行的大数据在线分析(OLAP)引擎,是第一个由国人开发并贡献到 Apache 基金会的开源项目,在国内有众多用户。Kylin 的特点是,无需编程,用户通过图形化界面进行建模,然后 Kylin 自动生成 Hadoop/spark 任务,对数据进行聚合、编码、索引,最后存储到 HBase 中;查询的时候使用 SQL 就可以了,支持很多 SQL 分析工具如 Tableau 等等。Kylin 已经在美团、滴滴、ebay 等大企业得到大规模使用,足见其吸引力。
在过去的几年里,Kylin 从批处理逐渐向实时处理进化,3年前就发布了分钟级延迟的准实时方案,在携程等大规模使用;而且现在还在开发秒级延迟的完全实时方案,不久就会正式对外发布。企业可以使用 Apache Kylin 构建自己的大型数据仓库,同时支持历史和实时数据。
收起