1)实时数据更加强调数据采集、数据加工、数据应用的实时性, 实时数据处理的技术实现上与历史数据有比较大的差异,数据模型要统一比较困难,是否可从以下两点去尝试。
1.数据分层体系上可以借鉴传统数仓,比如数据数据采集是否可与贴源数据对应,实时的数据清洗和标准化是否可以整合层对应起来。
2.实时数据采集和加工结果可以批量持久化到存储中,用于仓库的贴源数据采集和整合层加工。
2)实时数据处理过程由于时效性的考虑,应该使用访问效率比较高的存储,比如SSD、内存,我认为两者的存储是要独立的。结合上面的第2点如果可以实现的话,最终采集和加工也可以与历史数仓整合到一起。