个人理解对于未来数据增长比较迅速的企业在考虑自己的大数据应用构建的时候尽量考虑基于开源的扩展性较好的解决方案。以防止在后期在数据增加后被特定大数据解决方案束缚。
其次,在项目初期可以先把大数据的基础架构搭好,保证方案的水平扩展性,未来可以通过增加服务器来支撑数据的增长。确保所有的数据以历史数据的方式储存下来,而不是被轻易丢弃。
大数据项目主要解决的是3大类问题:
1,数据从哪来,怎么收集
2,数据怎么使用,分析
3,系统如何确保数据能够及时,有效地被使用和分析。
对于第一类,主要是在项目初期设计好数据ETL的方式和规划好时间窗口。对于第二类,需要各位根据数据的生产含义,请数据分析专家进行建模和采样分析。第三类问题是基础架构需要解决的,包括采用什么架构,什么类型的服务器等。