这三个产品应该分成两个部分来看。
1.spark,: Spark从狭义上来看,就是一个分布式计算框架。广义上来说,spark代表了spark BDAS整个软件栈。Spark主要处理一些海量的已经保存的历史数据,通过并行计算,内存计算等技术,使得响应时间大大降低。
2. storm和Streams都是处理流数据的,流数据的特点就是短时间数据量爆发很大,但是基本上都是过程数据,只有个别需要保存,最典型的就是电网的实时数据,从传感器过来的数据量非常大,一秒几个GB,但是里面只有一小部分需要关注,所以流计算就是定义数据模型,抓取这些数据。