lzguo568
作者lzguo568·2011-05-30 17:13
系统管理员·哈尔滨供排水集团

IBMBLADE H构建高性能计算应用解决方案:

字数 4882阅读 1888评论 0赞 0

 

 

 

 

 

IBMBLADE H构建高性能计算应用解决方案:

                         高性能计算需求
   
人类的文明进步已经让人类对计算的需求越来越深入,很多科学领域的研究已经越来越微观化,比如生物学、流体力学、空气动力学,并且在数据展现时也越来越强调可视化处理,比如断层分析、气象绘图、石油勘探中的地震数据解释、商业数据模型分析等,而且人们对于计算的速度也要求越来越高——能实时的模拟现实中的演变是人们不变的最高追求, 这就需要有一个强有力的计算工具介入,以加速运算能力的提高。

                        高性能计算定义
  高性能计算概述。高性能计算(HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。本文是基IBM BladeCenter GPUHPC系统解决方案。
               IBM BladeCenter GPU
扩展刀片
  IBM BladeCenter GPU 扩展刀片。(BGE) 可帮助您满足并行计算需求,同时还能够保持 BladeCenter 基础架构的可靠性、灵活性和成本优势。BGE 根据 NVIDIA 图形处理单元 (GPU) 构建,可将目标应用程序的性能最多提高 150 倍。由于 BGE 连接到 BladeCenter 机箱中的 BladeCenter 计算刀片,它可利用 BladeCenter 系统的基本 I/O 和电力资源。您可以在一个 BladeCenter HS22 刀片中叠放多达 4 BGE,为双精度应用程序提供超过 2000 GF 的处理能力。

由于具备高可靠性、高性能、绿色节能和灵活易用等优势,刀片服务器成为云计算和高性能计算的理想平台。IBM一直关注刀片技术的研发和基于IBM BladeCenter平台解决方案的开发,并致力于与业内领先厂商共建成熟良性的刀片生态社区。凭借丰富的刀片产品线和虚拟化等先进技术方案,IBM成为支持中国企业实现云计算和高性能计算的最佳伙伴

应用场景示例:

1、大电网并行与分布式计算和数据处理基础平台系统是高性能计算在电网技术应用的一个方向。大电网并行与分布式计算和数据处理基础平台系统是电力系统分析与规划,大电网运行与控制的基础数据和计算支撑系统。该应用方向上,研究与开发先进的大规模并行与分布式计算平台为电力分析、在线应用和大电网运行安全与监控等提供计算支撑作用。

2、大学中的科学计算

3高性能服务器和可视化技术的发展为油气勘探开发提供了一种全新的工作模式,它可以使地球物理家、地质家和油藏工程师根据复杂的数学模型、大量的数据资料,形成对复杂地质构造的快速计算和图形展示,建立数字化油田。

“随着地球物理技术、地质理论和油藏工程技术的进步,地学综合研究对信息技术提出了更高的要求,多路/CPU服务器、高速(10G)网络、大容量存储设备、三维可视化技术等,以及地学综合研究平台。”

4游戏、动画及电影后期制作。

5、气象预报

解决方案概述

    高性能计算的主要行业和应用在学校、研究所等科学研究机构。石油部门、医学生物、计算化学和汽车与航空航天设计、建筑结构设计、三维图形运算等。

    高性能计算多年来一直是科技综合实力竞争的制高点,也在一定程度上反映了各大公司在系统研发方面的实力。作为行业的技术领先者,IBM 公司在这一领域占主导地位。

    在高性能刀片集群的的市场中,IBM 也一直处于领先地位。

    JS21 的强大的向量运算功能,在某些领域中具有突出的性能优势,如生命科学、计算化学,同时也适用于地震资料处理、信号与数字影像处理,自主开发的应用等方面。

高性能计算(以下简称 HPC)类型一般分为 SMP 和集群式两种,集群式的解决方案主要面向一些计算密集型的应用。

HPC集群方案框图

刀片式 HPC 集群通常由以下几个部分组成:

管理节点,管理节点是集群的控制中心,作用包括整个集群的软硬件管理、计算节点的快速远程部署、提供用户登陆接口、任务调度与提交。管理节点可以考虑采用 p505p510 或者 p520 服务器。

计算节点,集群中用来计算的资源。在我们的方案中,每片 JS21 就是一个计算节点。

存储节点,集群中可以采用专门的服务器连接存储。然后通过各种网络文件系统协议(如 GPFSNFS),给计算节点提供网络文件系统服务。存储节点可以根据集群的大小部署多个,实现负载均衡或冗余。

管理网络,管理节点与计算节点中专门用于软硬件管理通讯的网络。通常为以太网络。

计算网络,集群中专为计算节点间通信的网络,根据不同计算类型对网络延迟带宽的要求不同,有高速以太网, Infiniband 网络,Myrinet 网络等各种高速交换网络可供选择。

概括来说,HS22 刀片优势在于其出色的浮点运算能力、优秀的硬件品质、以及丰富的软硬件支持。

出色的性能

   

    通用GPU不仅仅是高性能图形引擎。事实上,他们不连接到电脑显示器,他们没有视频输出功能,相反,他们的表现一般图形化的目的,科学和工程计算,并允许计算密集型卸载各个行业的任务包括生命科学,流体动力学,金融,数据分析,大气建模,以及大型图形渲染这些类型的应用可以并行操作 GPU专为大规模并行传统的CPU可能有四个处理核心,NVIDIAGPU拥有超过100448芯)多核心提供了515亿次的峰值双精度容量(十亿浮点运算),而不是50亿次 CPUGPU共同努力,这一计算模型。主要应用程序的一部分运行的顺序CPU,而计算密集型一部分运行GPU

IBM BladeCenter GPU 扩展刀片(连接到 HS22 刀片)

  

 

特点
扩建刀片具有以下特点:
支持高性能NVIDIA适配器每个扩展刀片
扩建刀片配备NVIDIA TeslaM2070NVIDIA TeslaM2070Q适配器卡。

一个单独的基座上能够堆叠多达四个扩展刀片刀,从而保持BladeCenter密度优势
CFFh
插槽仍然可用刀片服务器时。

操作系统支持
下列作业系统已经过测试,兼容IBM BladeCenterGPU扩展刀片
Windows Server 2008
高性能计算版(64位)
Windows HPC Server200864
位)
Windows 2008
355064位)
红帽企业Linux564位)
SUSE Linux企业
服务器版x86_641164位)

更快更稳定
   
构建高性能计算系统是对于操作系统、编译器、互联设备驱动、作业管理调度以及文件系统管理等等涉及各个系统层面的软硬件的整合。对商业运行的集群系统其可靠性和可用性更被放在第一重要的位置。

丰富高效的交换网络
   
在高性能系统的搭建过程中,选择一个正确高效的数据交换网络是能否达到甚至超过您对集群性能预期的关键。IBM BladeCenter HS22 所支持的外部连接极为丰富,除了常见的千兆以太网和 SAN 存储交换网络以外,HS22 还支持适用于高性能的计算的 10Gb 以太网,Infiniband 网络,以及 Myrinet 网络。

HS22 建议配置
  
针对一个 5000亿次的高性能解决方案,提供的建议 BladeCenter HS22 刀片服务器 HPC 集群配置如下:

名称及产品编号

 

描述

 

数量

刀片中心

 

BladeCenter H 机箱, 9U,可装14HS22

 

1

刀片中心网络选件

 

(管理网络)Nortel 2/3层铜口以太网交换机模块

 

1

 

 

(计算网络)4X Infiniband 高速交换机

 

1

 

 

刀片服务器与选件

 

HS22刀片服务器, CPU44G, 内存:32GB ,硬盘:2*300GB

 

14

管理节点及 I/O节点

 

IBM System p520 服务器

 

2

SAN 存储子系统

 

IBM Storage DS5000 系列磁盘阵列及相关附件一套,类型与容量视用户具体需求而定

 

 

1

简述:
   
该方案是较常见的 HPC 配置。其中一共配置了 1 IBM BladeCenter H 刀片中心,14 IBM HS22 服务器。

   配置 1 IBM System p520 服务器,同时作为管理节点和 I/O节点;1台套 IBM DS4000 系列存储作为 HPC SAN 存储,解决整个高性能计算的大容量存储需求。是否配置存储及 IO节点取决于客户对存储容量的需求,不是必要配置。



商业软件

开源软件

集群管理软件

CSM:可以同时管理多个集群,包括 UNIX 集群和 Linux 集群

xCATIBM 组织开发的开源 Linux HPC 集群软件

并行环境

PE:充分优化的 MPI 及调试工具

MPICH MVAPICHOpenMP

作业管理与调度软件

LoadLeveler:作业管理、记帐、断点/续算 (Checkpoint/Restart)功能

TORQUEMANUIOpenPBS

高性能并行
文件系统

GPFS

NFSPVFS CIFS

高性能数学
函数库

ESSL PESSL

GotoLAPCKFFTW

编译器

xlCxlfxlf90

GCCG77

系统资源管理

IBM WorkLoad ManagementWLM

 

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

X社区推广