HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?
收起HPC集群的调优,除了使用infiniband高速网络,集群调度策略外,也可以从其他方面进行优化,如:集群高可用架构的设计,做好故障检测和冗余设计,自动恢复等一些高可用的机制;采用并行文件系统,如GPFS,GFS等,提高IO速度等;对OS内核进行调优,调整内核参数、优化中断处理、减少上下文切换、TCP/IP网络参数调整等;利用GPU进行加速运算,可以显著提高计算密集型应用程序的性能。也可以采用内存分配和释放的策略,以减少内存碎片和优化内存利用率。使用内存层次结构优化技术,如使用高速缓存、使用非易失性内存等。
使用GPU编程模型,如CUDA、OpenCL等,将计算任务转移到GPU上进行并行计算。