随着每一代产品在功耗上不断突破极限,保持英伟达高端机架系统冷却的成本持续攀升。

根据 @Jukanlosreve 获取的一份摩根士丹利报告显示,GB300 NVL72 内部的液冷硬件成本为 49,860 美元,大约可以购买一辆全新的特斯拉 Model Y。
报告进一步估算,新一代 Vera Rubin NVL144 配置所需的液冷系统成本将接近 55,710 美元,增长约 17%。
托盘级冷却的经济性
该平台依赖更高功耗的 Rubin GPU,每个单元功耗可达 1,800W,同时配备下一代 NVSwitch 6.0 组件。
冷却系统的成本与单个计算托盘相关,每个计算托盘都需要更高容量的冷板。
预计每个计算托盘的成本将上涨 18%,达到约 2,660 美元——由于 Vera Rubin NVL144 系统拥有 18 个托盘,因此计算侧的总冷却费用约为 47,880 美元。
成本上升的原因在于高容量冷板的价格上涨,每块冷板成本升至 400 美元,因为 CPU 和 GPU 的热量达到了极限。
与此同时,交换托盘的冷却成本显得负担较轻,每个托盘降至 870 美元,每个机架总计 7,830 美元。
然而,这一降幅被计算侧的更大增幅掩盖。成本走势呈现出规律:从 GB200 NVL72 过渡到 GB300 NVL72 时,冷却需求增长了 20%。
同样,从 GB300 NVL72 升级到 Vera Rubin NVL144,又增加了 17%。功率水平解释了这一趋势。
每块 Blackwell Ultra 数据中心 GPU 功耗 1,400W,Grace CPU 功耗 300W,内存每个插槽贡献 200W。
随着工作负载增加,精准冷却的价值同样迅速提升,而未来系统将进一步加重这一负担。英伟达计划推出 Rubin Ultra GPU,单个封装热设计功耗可能达到 3,600W,满足这一需求可能需要新型冷板或更激进的冷却技术。
英伟达还在准备液冷 NVL576 “Kyber” 系统,该系统将包含 144 个 GPU 封装,性能将超过 Vera Rubin NVL144,但冷却成本更高。
虽然最终价格尚未确认,但能够散热 3.6kW 的高容量冷板成本显然会超过目前的 400 美元/块。
这表明未来的数据中心部署将面临更加陡峭的散热开支。