现在,无论实时数据仓库还是历史数据仓库,数据的维数越来越高,用户分析
需求也越来越复杂,我们应该如何对高维实时数据和高维历史数据进行建模、存储和分析?
我觉得分几步来做:
1.数据全部收集到一个数据平台。不管是实时的还是历史的。
2.做好数据库的清洗和基础关联,和宽表的建立。
3.根据对数据的实时性要求进行分级处理。
4.成立每个业务分析团队在款表上做分析。
5.分析的数据再返回宽表,并形成数据模型,共以后或其他业务线使用。譬如标签体系,用户体系。
如果维数很高,比如银行账户,维数达到100或者上千个,我们怎么灵活地建模?同时考虑分析的效率?
收起