电信运营商存在众多业务平台由不同厂家开发、各自为政现象,如何利用大数据整合挖掘各个独立的业务平台,实现数据集采?
可以考虑因为分布式采集和分布式消息队列机制实现,例如采用kafka/flume,一个可参考处理流程如下:
1、分布式采集:负责从各个业务应用节点上实时采志数据,可以指定目录或文件,通过flume实现,仅增量采集数据。
2、分布式消息层:由于上述采集数据的速度和数据处理的速度不一定同步,增加分布式消息曾作为缓冲,防止丢失数据,采用kafka。
3、判断处理层:对采集的数据进行实时分析,选用spark-streaming+redis实现。
4、展示和告警层:对分析结果存储在mysql数据库中,并进行告警展示,主要错误实现语音拨号。