浪潮商用机器有限公司 薛松
特性 | Power10 | POWER9 |
工艺 | 7nm | 14nm |
芯片尺寸 | 602 mm | 693 mm |
处理器尺寸 | 68.5 mm x 77.5 mm | 68.5 mm x 68.5 mm |
晶体管数量 | 18 billion | 8 billion |
最大核数 | 15 | 12 |
每核最大线程数 | 8 | 8 |
最高主频/范围 | 3.75 - 4.15 GHz | 3.9 - 4.0 GHz |
L2缓存/核 | 2048 KB | 512 KB |
L3缓存 | 每核8MB L3缓存,每核可以访问完整的120MB L3缓存,片上高效SRAM | 每核10MB L3缓存,每核可以访问完整的120MB L3缓存,片上eDRAM |
内存类型 | DDR4 | DDR4 and DDR3 |
I/O总线 | PCIe Gen 5 | PCIe Gen 4 |
如上表所示, Power10 采用更先进的 7nm 工艺,相对 Power9 的 14nm 提供了更高的集成度、更多的晶体管数量。 Power10 的芯片面积不到 Power9 的 87% ,但提供的晶体管数量是 Power9 的两倍多,这也意味着 Power10 相对 Power9 更加的可靠、性能更高、能耗更低,理论上 Power10 每核每瓦特的性能是 Power9 的 2.6 倍。
Power10 最大封装 15 核,最高主频 4.15GHz ,也高于已有的 Power9 ;同时 CPU 的每核 L2 缓存达到了 2MB ,是 Power9 的 4 倍,大大提高了 CPU 缓存读取的命中率,从而提高系统的性能。
对于 L3 缓存, Power10 处理器的 L3 共享缓存大小和 Power9 相同,但由于 Power10 封装核数的增加,每核的本地域 L3(Local Region) 的大小减少到 8MB 。不过,由于 Power10 L3 采用的是片上更高效的 SRAM 与更好的优化,其数据访问延迟比 Power9 降低了 8 cycles( 标称理论值 ) 。
尽管 Power10 和 Power9 在上表中都支持 DDR4 内存,但 Power10 从技术上也支持 DDR5 内存;同时, Power10 集成了 OMI 内存接口,采用新的 DDIMM 差分内存,每个 CPU 支持 16 个 OMI link , OMI 聚合带宽理论上最大高达 1TBps ,即使配置 DDR4 内存,也可达到 409GBps 带宽,比 Power9 提高了 78% 。
I/O 总线上,每个 Power10 处理器有两个 PCIe host bridges(PHBs) ,支持最新的 PCIe Gen 5 ,也比 Power9 有一定的性能提高。
Power10 采用了高达 32Gbps 速率的高速 SMP 互联 (Power9 是 25Gbps) ,新的 SMP 架构中,总共 144 个 lanes 帮助互联。每个 SMP 互联需要 18 个 lanes, 单向 8 个数据 lanes+1 个备用 lane (2 x(8+1)) 。这种方案架构,每个处理器能支持最大 8 个 SMP 连接,总计 128 个数据 lanes. 这种配置产生的最大理论全双工带宽聚合在所有 SMP 连接上为 1TBps 。
接口实现的通用特性还允许使用 128 个数据 lanes 通过 OpenCAPI 协议连接加速器或存储设备。此外,它还支持内存集群 (memory cluster) 和内存侦听架构 (memory interception architectures) 。正是因为新的 SMP 总线的多用途通用性,其也被称为 PowerAXON 接口 (Power A-bus/X-bus/OpenCAPI/Networking) 。
Power10 取消了以前传统的内存控制器集成,而是采用了 OpenCAPI 的 OMI(Open memory interface) 控制单元,每个 Power10 处理器有 4 个内存控制单元 (MCU) , 8 个内存控制器单元通道 ( 每个 MCU 有 2 个通道 ) , 16 个 OMI 子通道 ( 每个通道支持 2 个子通道 ) 。每个 OMI 子通道聚合了 8 个 lane ,运行在 32G 的速度,连接到 DDIMM(differential DIMM) 的缓存上。所有的 128 OMI lanes(16x8) 聚合一起理论上最大的全双工传输带宽为 1TBps
矩阵乘法辅助 (MMA) 功能是由 Power ISA v3.1 引入,相关指令在小矩阵上实现数值线性代数运算,旨在加速计算密集型的内核,如矩阵乘法、卷积和离散傅里叶变换。为了有效地加速 MMA 操作, Power10 处理器实现了密集数学引擎 (dense math engine,DME) 微架构,通过集成的四个 MMA 单元,不需要额外的 GPU 就能实现机器学习和推理 (inference) 的加速,从而降低业务应用和 AI 分开部署的复杂性,简化 AI 解决方案堆栈和降低成本。
同时, MMA 指令的代码已包含在 OpenBLAS 和 Eigen libraries 中,可以通过使用最新版本的 GCC 编译器来构建。 Python-NumPy 库、 PyTorch 和其他框架都使用了 OpenBLAS ,这使得在 AI 工作负载中很容易使用 Power10 MMA 加速器的性能优势。另外,通过开放神经网络交换 (ONNX) 模型,在任何 x86 或其他平台上训练的模型都可以部署在 Power10 上,并且无需进行任何更改即可运行。
Power10 增加了内存加密功能 (Pervasive memory encryption) ,通过 Power10 MCU 实现。 Power10 MCU 在片上 SMP 互连结构和 OMI 链路之间提供系统内存接口,该设计使 MCU 成为实现内存加密逻辑的理想功能单元。每个 Power10 处理器持有一个 128 位的加密密钥,该密钥被处理器的 MCU 用来加密连接到 OMI 内存链路上的差分内存的数据。 MCU 加密引擎透明集成到数据路径中,对进出内存的所有流量进行加密和解密,同时确保了数据的获取和存储带宽不受加密模式的影响。
另外,为了为量子时代做准备, Power10 为有效支持未来的密码学做了准备,如量子安全密码 (Quantum-safe cryptography) 和同态加密 (Homomorphic encryption,FHE) 。这些解决方案的软件库针对 Power10 指令集 (ISA) 进行了优化,并且已经或将在各自的开放源码社区中提供。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞0
添加新评论0 条评论