• 微头条

    让本地生活更美好

打开APP

在千瓦级芯片时代,热管理正在发生变革

2023-12-27 外星人S博士
在千瓦级芯片时代,热管理正在发生变革

Source: Slashdot

一位匿名读者分享了一份报告:随着摩尔定律的减速,尤其是在人工智能和高性能计算(HPC)领域使用的芯片变得越来越热。在2023年,随着英伟达GH200 Superchips的推出,我们看到了加速器进入千瓦级的范围。我们早就知道这些芯片会很热,因为近两年来英伟达一直在预告CPU-GPU混合芯片。直到最近,我们才知道原始设备制造商(OEMs)和系统构建商将如何应对如此高功率密度的零部件。

大部分系统会采用液冷还是空气冷却?他们会试图将多少个加速器塞入一个箱体中,箱体有多大? 现在,基于GH200的首批系统进入市场,很明显形状因素主要受功率密度的影响,而不是其他因素。基本上,问题归结为你有多少表面积来散热。仔细查看今天来自Supermicro、技嘉、QCT、Pegatron、HPE等公司的系统,你很快就会注意到一个趋势。大约每个机架单元(RU)最多约500瓦,正如Supermicro MGX ARS-111GL-NHR的情况一样,这些系统主要采用空气冷却。

虽然会很热,但这仍然是一个可以管理的热负载,机架每个单位的热负载约为21-24千瓦。这在现代数据中心的电力供应和热管理能力范围内,特别是那些使用后门换热器的数据中心。然而,当系统构建商把每个机箱填满超过一千瓦的加速器时,情况改变了。在这一点上,我们所看到的大多数OEM系统都转向了直接液体冷却。

例如,技嘉的H263-V11在一个2U的机箱中提供了最多四个GH200节点。这就是每个机架单元两千瓦。因此,尽管像英伟达的DGX H100这样的空气冷却系统采用了8个700瓦的H100和双Sapphire Rapids CPU,其TDP更高达10.2千瓦,但在每个机架单元的功率密度却只有1.2千瓦。

随着芯片变得越来越热,热管理技术也在迅速发展。如何有效散热成为了面临的挑战,对于数据中心来说尤为关键。

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://tech.slashdot.org/story/23/12/27/1320226/how-thermal-management-is-changing-in-the-age-of-the-kilowatt-chip?utm_source=rss1.0mainlinkanon&utm_medium=feed https://forums.theregister.com/forum/all/2023/12/26/thermal_management_is_changing/ https://twitter.com/igor_os777/status/1739603744587989206
更多阅读