关于大数据的数据迁移问题

早起设计平台时因为各种原因,实现了平台的 逻辑统一和物理分散,现在拟计划将不同物理地的数据进行物理集中,面对海量数据如何进行数据迁移和集中呢,而且不影响应用正常使用

参与4

1同行回答

sandcunsandcun  信息分析/架构师 , 某股份制商业银行
基于Hadoop搭建的大数据系统,要做到大量数据迁移,过程中不影响正常使用是非常困难的。因为HDFS作为底层存储是要将数据分块而后尽量均匀的分布在集群的各个节点上,默认三副本策略是如果远端调用接口则第1份部分可保存任意节点,第2份保存在同一机架的节点上,第3份则在不同机架...显示全部

基于Hadoop搭建的大数据系统,要做到大量数据迁移,过程中不影响正常使用是非常困难的。
因为HDFS作为底层存储是要将数据分块而后尽量均匀的分布在集群的各个节点上,默认三副本策略是如果远端调用接口则第1份部分可保存任意节点,第2份保存在同一机架的节点上,第3份则在不同机架上节点。
短时间内持续的大量写入数据会对集群中众多节点产生影响,占用磁盘IO和网络IO。此时如果集群同时支持HBase这样的联机查询或写入服务,则会产生较大的影响。即使是批量数据处理操作,也同样存在竞争影响其服务处理时间。

如果确实无法停止服务,建议选择系统服务压力较小的特定时间窗口完成迁移数据的加载。

收起
银行 · 2017-05-16
浏览1320

提问者

bryan
bryan0514
软件架构设计师金融研发
擅长领域: 云计算容器容器云

问题来自

  • 相关问题

    相关资料

    相关文章

    问题状态

  • 发布时间:2017-05-15
  • 关注会员:2 人
  • 问题浏览:3641
  • 最近回答:2017-05-16
  • X社区推广