Source: Slashdot
一位匿名读者分享了一份报告:随着摩尔定律的减速,尤其是在人工智能和高性能计算(HPC)领域使用的芯片变得越来越热。在2023年,随着英伟达GH200 Superchips的推出,我们看到了加速器进入千瓦级的范围。我们早就知道这些芯片会很热,因为近两年来英伟达一直在预告CPU-GPU混合芯片。直到最近,我们才知道原始设备制造商(OEMs)和系统构建商将如何应对如此高功率密度的零部件。
大部分系统会采用液冷还是空气冷却?他们会试图将多少个加速器塞入一个箱体中,箱体有多大? 现在,基于GH200的首批系统进入市场,很明显形状因素主要受功率密度的影响,而不是其他因素。基本上,问题归结为你有多少表面积来散热。仔细查看今天来自Supermicro、技嘉、QCT、Pegatron、HPE等公司的系统,你很快就会注意到一个趋势。大约每个机架单元(RU)最多约500瓦,正如Supermicro MGX ARS-111GL-NHR的情况一样,这些系统主要采用空气冷却。
虽然会很热,但这仍然是一个可以管理的热负载,机架每个单位的热负载约为21-24千瓦。这在现代数据中心的电力供应和热管理能力范围内,特别是那些使用后门换热器的数据中心。然而,当系统构建商把每个机箱填满超过一千瓦的加速器时,情况改变了。在这一点上,我们所看到的大多数OEM系统都转向了直接液体冷却。
例如,技嘉的H263-V11在一个2U的机箱中提供了最多四个GH200节点。这就是每个机架单元两千瓦。因此,尽管像英伟达的DGX H100这样的空气冷却系统采用了8个700瓦的H100和双Sapphire Rapids CPU,其TDP更高达10.2千瓦,但在每个机架单元的功率密度却只有1.2千瓦。
随着芯片变得越来越热,热管理技术也在迅速发展。如何有效散热成为了面临的挑战,对于数据中心来说尤为关键。