xuesong
作者xuesong2022-12-13 09:50
保险行业系统架构师, 浪潮商用机器有限公司

Power10与Power9的关键参数比较和主要新技术

字数 2821阅读 2782评论 0赞 0

浪潮商用机器有限公司 薛松

处理器关键参数比较

特性Power10POWER9
工艺7nm14nm
芯片尺寸602 mm693 mm
处理器尺寸68.5 mm x 77.5 mm68.5 mm x 68.5 mm
晶体管数量18 billion8 billion
最大核数1512
每核最大线程数88
最高主频/范围3.75 - 4.15 GHz3.9 - 4.0 GHz
L2缓存/核2048 KB512 KB
L3缓存每核8MB L3缓存,每核可以访问完整的120MB L3缓存,片上高效SRAM每核10MB L3缓存,每核可以访问完整的120MB L3缓存,片上eDRAM
内存类型DDR4DDR4 and DDR3
I/O总线PCIe Gen 5PCIe Gen 4

如上表所示, Power10 采用更先进的 7nm 工艺,相对 Power9 的 14nm 提供了更高的集成度、更多的晶体管数量。 Power10 的芯片面积不到 Power9 的 87% ,但提供的晶体管数量是 Power9 的两倍多,这也意味着 Power10 相对 Power9 更加的可靠、性能更高、能耗更低,理论上 Power10 每核每瓦特的性能是 Power9 的 2.6 倍。

Power10 最大封装 15 核,最高主频 4.15GHz ,也高于已有的 Power9 ;同时 CPU 的每核 L2 缓存达到了 2MB ,是 Power9 的 4 倍,大大提高了 CPU 缓存读取的命中率,从而提高系统的性能。

对于 L3 缓存, Power10 处理器的 L3 共享缓存大小和 Power9 相同,但由于 Power10 封装核数的增加,每核的本地域 L3(Local Region) 的大小减少到 8MB 。不过,由于 Power10 L3 采用的是片上更高效的 SRAM 与更好的优化,其数据访问延迟比 Power9 降低了 8 cycles( 标称理论值 ) 。

尽管 Power10 和 Power9 在上表中都支持 DDR4 内存,但 Power10 从技术上也支持 DDR5 内存;同时, Power10 集成了 OMI 内存接口,采用新的 DDIMM 差分内存,每个 CPU 支持 16 个 OMI link , OMI 聚合带宽理论上最大高达 1TBps ,即使配置 DDR4 内存,也可达到 409GBps 带宽,比 Power9 提高了 78% 。

I/O 总线上,每个 Power10 处理器有两个 PCIe host bridges(PHBs) ,支持最新的 PCIe Gen 5 ,也比 Power9 有一定的性能提高。

Power10 的主要新技术

SMP 高速互联 PowerAXON

Power10 采用了高达 32Gbps 速率的高速 SMP 互联 (Power9 是 25Gbps) ,新的 SMP 架构中,总共 144 个 lanes 帮助互联。每个 SMP 互联需要 18 个 lanes, 单向 8 个数据 lanes+1 个备用 lane (2 x(8+1)) 。这种方案架构,每个处理器能支持最大 8 个 SMP 连接,总计 128 个数据 lanes. 这种配置产生的最大理论全双工带宽聚合在所有 SMP 连接上为 1TBps 。

接口实现的通用特性还允许使用 128 个数据 lanes 通过 OpenCAPI 协议连接加速器或存储设备。此外,它还支持内存集群 (memory cluster) 和内存侦听架构 (memory interception architectures) 。正是因为新的 SMP 总线的多用途通用性,其也被称为 PowerAXON 接口 (Power A-bus/X-bus/OpenCAPI/Networking) 。

新的内存内存接口 OMI

Power10 取消了以前传统的内存控制器集成,而是采用了 OpenCAPI 的 OMI(Open memory interface) 控制单元,每个 Power10 处理器有 4 个内存控制单元 (MCU) , 8 个内存控制器单元通道 ( 每个 MCU 有 2 个通道 ) , 16 个 OMI 子通道 ( 每个通道支持 2 个子通道 ) 。每个 OMI 子通道聚合了 8 个 lane ,运行在 32G 的速度,连接到 DDIMM(differential DIMM) 的缓存上。所有的 128 OMI lanes(16x8) 聚合一起理论上最大的全双工传输带宽为 1TBps

集成的 AI 加速引擎 MMA

矩阵乘法辅助 (MMA) 功能是由 Power ISA v3.1 引入,相关指令在小矩阵上实现数值线性代数运算,旨在加速计算密集型的内核,如矩阵乘法、卷积和离散傅里叶变换。为了有效地加速 MMA 操作, Power10 处理器实现了密集数学引擎 (dense math engine,DME) 微架构,通过集成的四个 MMA 单元,不需要额外的 GPU 就能实现机器学习和推理 (inference) 的加速,从而降低业务应用和 AI 分开部署的复杂性,简化 AI 解决方案堆栈和降低成本。

同时, MMA 指令的代码已包含在 OpenBLAS 和 Eigen libraries 中,可以通过使用最新版本的 GCC 编译器来构建。 Python-NumPy 库、 PyTorch 和其他框架都使用了 OpenBLAS ,这使得在 AI 工作负载中很容易使用 Power10 MMA 加速器的性能优势。另外,通过开放神经网络交换 (ONNX) 模型,在任何 x86 或其他平台上训练的模型都可以部署在 Power10 上,并且无需进行任何更改即可运行。

透明内存加密与新加密支持

Power10 增加了内存加密功能 (Pervasive memory encryption) ,通过 Power10 MCU 实现。 Power10 MCU 在片上 SMP 互连结构和 OMI 链路之间提供系统内存接口,该设计使 MCU 成为实现内存加密逻辑的理想功能单元。每个 Power10 处理器持有一个 128 位的加密密钥,该密钥被处理器的 MCU 用来加密连接到 OMI 内存链路上的差分内存的数据。 MCU 加密引擎透明集成到数据路径中,对进出内存的所有流量进行加密和解密,同时确保了数据的获取和存储带宽不受加密模式的影响。

另外,为了为量子时代做准备, Power10 为有效支持未来的密码学做了准备,如量子安全密码 (Quantum-safe cryptography) 和同态加密 (Homomorphic encryption,FHE) 。这些解决方案的软件库针对 Power10 指令集 (ISA) 进行了优化,并且已经或将在各自的开放源码社区中提供。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广