存储Link Protocol/Transport Comparison
从下图可以看到infiniband 网络的定位是Highest Performance 也就是极致性能。
当然极致性能是由代价和限制的:infiniband (40GE,100GE,156GE)组网需要专门的infiniband 交换机,存储端和主机端需要infiniband网卡。目前infiniband 组网规模不能做到很大,多用于商业存储的内部通信连接。或是小规模infiniband网络打通主机和存储连接。
由Infiniband 延伸出来的RDMA协议可以通过RoCE(RDMA协议跑在以太网)方式跑在10GE/25GE/40GE/100GE 以太网上。从发展趋势看,RoCE是未来的大趋势。其即利用了RDMA协议的高性能快速优势,由通过以太网来组网,可以做到大规模的普及。
InfiniBand 发展的初衷是把服务器总线网络化,所以 InfiniBand 除了具有很强的网络性
能以外还直接继承了总线的高带宽和低时延[4]。总线技术中采用的 DMA(Direct Memory
Access) 技术在 InfiniBand 中以 RDMA(Remote Direct Memory Access) 的形式得以实现。
RDMA 服务可在处理器之间进行跨网络数据传输,数据直接在暂时内存之间传递,不需要
操作系统介入或数据复制。 RDMA 通过减少对带宽和处理器开销的需要降低了时延, 这种
效果是通过在 NIC 的硬件中部署一项可靠的传输协议以及支持零复制网络技术和内核内存
旁路实现的[5]。 这使得 InfiniBand 在与 CPU、 内存及存储设备的数据交换方面天生地优于万
兆以太网以及光纤通道(Fiber Channel, FC)。
IBM的XIV GRID 架构分布式存储就是采用40GE infiniband组网实现的,其架构如下:
XIV是典型的网格MPP计算架构。
采用网格存储系统的原理,即数据进入系统会切成固定大小的数据块,然后随机分布到所有的节点,避免热点问题。而节点也是AA负载分担。节点之间通过InfiniBand交换机互连在一起。理论上应该可以支持很多的节点,但IBM XIV目前最多支持15个节点而已。估计是算法太复杂了,还有就是规模过大时无法保证极致性能。
infiniband 需要物理网络、交换机、网卡支持。价格比FC链路贵得多。
除非对性能有极高要求,对价格不敏感的高性能计算场景,可以采用infiniband网络。
否则目前来说采用16G FC的链路足以满足绝大多数的性能需求。万兆IP网络也足以满足大多数场景的需要,应该是今后的主流发展方向。