基于Hadoop搭建的大数据系统,要做到大量数据迁移,过程中不影响正常使用是非常困难的。
因为HDFS作为底层存储是要将数据分块而后尽量均匀的分布在集群的各个节点上,默认三副本策略是如果远端调用接口则第1份部分可保存任意节点,第2份保存在同一机架的节点上,第3份则在不同机架上节点。
短时间内持续的大量写入数据会对集群中众多节点产生影响,占用磁盘IO和网络IO。此时如果集群同时支持HBase这样的联机查询或写入服务,则会产生较大的影响。即使是批量数据处理操作,也同样存在竞争影响其服务处理时间。
如果确实无法停止服务,建议选择系统服务压力较小的特定时间窗口完成迁移数据的加载。