HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?

HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?显示全部

HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?

收起
参与8

查看其它 2 个回答lrx00056015的回答

lrx00056015lrx00056015it运维主管福田汽车

HPC 可能产生瓶颈的地方很多,包括 CPU ,内存,本地磁盘,网络存储,计算网络,操作系统等,通过 PBS 可以进行相关资源的使用和调用监控,了解当前和历史状态,进行优化。具体优化可以从以下四个方面开始:

  1. 采用更高速的网络互联: 选用高带宽的 InfiniBand 网络如200G,实现大量数据的并行处理,提升 HPC 网络环境的运行效率和性能表现 。
  2. 采用高可用性存储系统:选择具备自动故障检测与快速恢复重建能力的高可用性存储系统,提高数据重构的速度和系统的可用性。
  3. 优化作业调度策略:合理的作业调度策略可以显著提升 HPC 系统的吞吐和效率。基于用户定义的组织结构树来实现作业的优先级动态计算,有助于实现更加公平和高效的资源分配
    4.完善故障检测机制:完善故障检测和自动恢复机制,实现作业执行的失败检测和失败作业的自动重新提交,减少对系统的影响。
系统集成 · 2023-11-05
浏览273

回答者

lrx00056015
it运维主管福田汽车

lrx00056015 最近回答过的问题

回答状态

  • 发布时间:2023-11-05
  • 关注会员:4 人
  • 回答浏览:273
  • X社区推广