johnzhang518
作者johnzhang5182021-12-22 15:31
技术支持, IPS

浅谈K1 Power的RAS特性(三)

字数 1872阅读 710评论 0赞 0

前面两篇文章我们探讨了 K1 Power 小型机在处理器、内存和总线等多个方面的 RAS 特性设计,使得 K1 Power 具有非常优秀的可靠性和系统抗压能力。其实,在 K1 Power 内部,还有很多重要的组件,也对提高系统可靠性、可用性和可服务性起到至关重要的作用,今天就让我们来认识一下这些重要组件。

五、 FSP ( Flexible Service Processor )

FSP 是 K1 Power 中的一个非常关键的组件,它并不使用我们用户在系统中能够看到的 Power 的处理器,而是一个单独的微型处理器。企业级高端服务器拥有双 FSP ,采用主备模式,即使遇到 FSP 故障也不会影响整个机器的运行。 FSP 有很多重要的功能。

引导 Power 服务器启动:
FSP 类似于我们家用电脑中的 BIOS ,可以引导整个服务器的启动。在 Power9 处理器外面有一个叫做 PNOR 的芯片,储存了处理器启动( Host Boot )的微码和自启动引擎( SBE : self-boot engine )代码,在系统初始化( IPL : initial program load )过程中, PNOR 先运行 SBE 代码,并最终将这些代码发送到 Power9 处理器上。

环境监测:
FSP 可以与 OCC ( on chip controller )进行交互,实时监测服务器内部的温度传感器,并根据监测结果产生相应的指令,控制风扇的转速,保证内部温度的稳定。一旦发现系统出现内部温度超过阈值,多风扇故障,或者是处理器输入电压超过阈值, FSP 会发出告警,并执行一系列保护操作,例如整机进入降频节能模式,甚至是执行关机操作。

系统固件监控和 HMC 连接监控:
FSP 监控系统固件在启动过程中的运行状态,反过来固件层也监控着 FSP ,如果发现无法与 FSP 进行通信,就会执行重启或其他设置操作。 FSP 同时还监控着 HMC 的连接情况,一旦无法连接,则会第一时间通知正在运行的操作系统。

六、 TPM ( Trusted Platform Module )

TPM 是 K1 Power 非常重要的安全防护组件,它采用非对称秘钥方式,对系统固件和软件堆栈等进行校验,使用户数据不会因为安全漏洞等原因受到外界非法入侵。

七、 VPD ( Vital Product Data )

VPD 用于储存当前服务器的 CPU 、内存等关键配置的采购数量和激活数量,并记录当前服务器的固件和软件的版本。这些信息有利于售后服务人员在进行远程技术支持时,能够准确了解当前机器的具体情况,以便快速开展工作。

八、电源稳压模块 VRM ( Voltage Regulator Module )

在服务器领域, VRM 是一个非常通用但是重要的组件,它通过对主板上直流 —> 直流 ( 简称 DC—>DC) 转换电路的控制来为 CPU 、内存或者板卡等提供稳定的工作电压。内部精密的电子元件很容易因电压过高而短路,所要求的电压必须尽可能精确地传递,这就需要 VRM 能够持续稳定运行从而将电压降至适当的水平。

VRM 一般分为单相 VRM 和多相 VRM ,服务器上一般采用多相 VRM 。多相 VRM 的每个相位( phase )只提供所需的一小部分电能,轮流为 CPU 提供电能,多相 VRM 将电力负荷分散到更多的相位区域,减少了热量的产生和对组件的压力,这让 VRM 的运行更加稳定。

此外, VRM 的存在形式也有两种,一种是板载 VRM ,另一种是独立的 VRM 卡。板载 VRM 出现故障时,需要替换整个主板,因此对于高端的服务器,均采用 VRM 卡方式,某个 VRM 发生故障时,只替换故障的 VRM 卡即可。

对于最高端的 K1 Power 小型机,电源稳压模块采用了 N+1+1 冗余相位( phase )的 VRM 卡,即当一个相位发生故障时, VRM 可以完全正常运行,系统会发出告警信息,此时 VRM 仍然有一个备用的相位,用户无需立即更换 VRM 卡,可以在停机窗口进行替换,这使得用户的日常运维更加从容。只有在 2 个相位同时故障时才需要立即进行更换。这种 VRM 冗余设计模式在服务器领域已经是顶级了。

九、其他

K1 Power 能够提供冗余且支持热插拔的电源、风扇和 IO 板卡,尤其是 IO 板卡的可热插拔设计,是很多 x86 服务器无法提供的。

以上这几篇文章就是我对 K1 Power 在单机可靠性方面的优势和价值的理解。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

X社区推广