xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

英伟达揭示了xAI的“巨像”超级计算机集群是如何处理10万个Hopper gpu的——这一切都取决于该芯片制造商的Spectrum-X以太网网络平台。

该公司透露,Spectrum-X旨在通过其远程目录内存访问(RDMA)网络为多租户、超大规模的人工智能工厂提供大规模性能。

xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

该平台从一开始就部署在世界上最大的人工智能超级计算机“巨像”上。这家由埃隆·马斯克(Elon musk)所有的公司一直在使用该集群来训练其Grok系列大型语言模型(llm),这些模型为提供给X用户的聊天机器人提供动力。

该工厂与英伟达(Nvidia)合作仅用了122天就建成了,目前xAI正在对其进行扩建,计划部署总计20万颗英伟达Hopper gpu。

训练Grok需要强大的火力

Grok的人工智能模型非常大,Grok-1可以测量3140亿个参数,Grok-2在8月份推出时的表现超过了Claude 3.5 Sonnet和GPT-4 Turbo。

当然,训练这些模型需要显著的网络性能。使用Nvidia的Spectrum-X平台,xAI记录了零由于“流碰撞”或AI网络路径瓶颈而导致的应用程序遗留退化或数据包丢失。

xAI透露,Spectrum-X的拥塞控制功能使其能够保持95%的数据吞吐量。该公司补充说,这种级别的性能无法通过标准以太网在这种规模下提供。

TechRadar的头像TechRadar认证作者

相关推荐

  • 苹果地图可能会新增一项随时跟踪你的新功能

    许多用户偏好苹果设备,因为该公司在隐私保护方面持有坚定立场,并且在个人数据处理方面非常谨慎。与谷歌和Meta不同,苹果的做法使得用户数据不太可能被用来做广告。然而,近年来,苹果已开始在其免费服务中整合广告,例如新闻和股票应用程序。根据一份新的报告,苹果地图可能是下一个整合广告的服务。 目前,苹果在新闻和股票应用中显示广告,即使是Apple One或Apple…

    2025年2月18日
    323
  • 英特尔拆分网络与边缘计算事业部,成为公司最新重大改变

    英特尔计划将其引擎网络与边缘计算事业部拆分出来,作为公司提升盈利能力的持续努力的一部分。 这一消息在一份被 CRN 看到的内部备忘录中得到确认,备忘录由 Sachin Katti 撰写,他曾在英特尔的网络与边缘计算事业部(NEX)担任高级副总裁、总经理和首席技术官等多个职务。 尽管 NEX 将被拆分成独立公司,英特尔预计仍将作为主要投资者保持参与,类似于之前…

    2025年7月28日
    200
  • 网传Samsung开发三折叠屏手机,将归纳于Galaxy Z Fold7系列明年推出

    专门报导Samsung消息的荷兰网站GalaxyClub,日前透露Samsung正在开发两款不同版本的Galaxy Z Fold7 折叠屏手机,预计Fold系列明年同样会推出两个版本。今年除了7月发表的Galaxy Z Fold6,Samsung还在上星期於韩国推出了Galaxy Z Fold Special Edition,一款相机升级至200MP和较为轻…

    2024年10月28日
    391
  • ChatGPT解释——你需要了解的关于AI聊天机器人的一切

    OpenAI的ChatGPT引领着生成性AI的改变,迅速吸引了数百万用户,并承诺将改变我们创造和工作的方式。从许多方面来看,这感觉像是另一个iPhone时刻——一款新产品对技术领域产生了重大影响。 这款由OpenAI开发、基于大型语言模型(LLM)的AI聊天机器人,正在不断扩展其功能和智能。本文将为你介绍关于ChatGPT的一切,包括它是如何工作的,以及它是…

    2025年2月14日
    315
  • 任天堂向所有 Switch 2 用户发出紧急警告

    你正在享受你的全新 Switch 2 游戏机吗?根据销售数据,任天堂的这款最新设备已经取得了巨大的成功,尽管目前为止发布的游戏还不算多。然而,任天堂最近发布了一项紧急警告,可能会暂时中断你的游戏乐趣。因为如果你在不当的环境下使用这台设备,可能会导致设备故障,甚至永久损坏。 Nintendo Switch 2:不适合高温环境 Switch 2 是一款相当坚固的…

    2025年8月5日
    255

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注