目前看到大数据平台或者数据中台都有比较成熟的产品,基本是分布式架构,产品本身都是一站式的解决方案。其中大数据平台可提供数据采集、加工和分析等全套构建服务,架构特点是横向扩容相当便利,冷热数据是分离的,初期按照数仓容量的规模和历史数据的保存周期去评估问题应该不大,就算无法准确评估容量,后期按照集群方式去扩容即可,随着规模的增大,机房机柜的容量也是需要关注的问题。
收起大数据平台一般采用x86服务器搭建,可以不用采购专业的存储吧。但是随着存算分离的发展趋势,大数据存储也的确成为一个要考虑的问题,首先存储要能够快速易扩展以应对数据量的快速增长,其次要提供全面的文件存储、对象存储和块存储,同时要有统一管理平台。另外目前表流程的存算分离是采用云的方式,如阿里云的oss、aws的s3.
收起