容器云中flink类型的大数据存储方式？

flink任务在容器云集群中运行时，需要将一部分数据放在容器中处理，如果放在本地盘可能会将文件系统占满，影响到其他容器的运行；如果存算分离，可能IO不能满足需求。建议采用哪种方式？

参与4

1同行回答
全部行业
全部行业 银行
|
按赞同排序
按时间排序

软件架构设计师民生银行

一般需要为计算节点配置单独的shaffle本地盘，同时通过调度算发，让数据密集型作业尽可能分散到不同的节点，确保不出现存储热点节点。同时也可以增加作业的内存配置和数量，减少spill到本地的文件数量，减少存储开销。

银行 · 5天前

针对这种情况，建议采用分布式文件系统来解决数据存储问题。分布式文件系统可以将数据分散存储在多个节点上，避免单个节点存储过多数据，导致文件系统占满的问题。同时，分布式文件系统可以提供高可用性和容错性，保证数据的安全性和可靠性。

在容器云集群中，可以选择使用Kubernetes来管理容器，使用Flink来处理数据。可以将分布式文件系统作为数据存储的后端，通过Kubernetes的Volume插件将分布式文件系统挂载到Flink任务的容器中，实现数据的共享和访问。

此外，还可以考虑使用Flink的StateBackend来进行状态管理，将状态存储在分布式文件系统中，实现状态的共享和访问。这样可以避免将状态存储在本地盘中，导致文件系统占满的问题。

总之，采用分布式文件系统来解决数据存储问题是比较可行的方案，可以提高数据的可靠性和可用性，同时避免文件系统占满的问题。