xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

英伟达揭示了xAI的“巨像”超级计算机集群是如何处理10万个Hopper gpu的——这一切都取决于该芯片制造商的Spectrum-X以太网网络平台。

该公司透露,Spectrum-X旨在通过其远程目录内存访问(RDMA)网络为多租户、超大规模的人工智能工厂提供大规模性能。

xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

该平台从一开始就部署在世界上最大的人工智能超级计算机“巨像”上。这家由埃隆·马斯克(Elon musk)所有的公司一直在使用该集群来训练其Grok系列大型语言模型(llm),这些模型为提供给X用户的聊天机器人提供动力。

该工厂与英伟达(Nvidia)合作仅用了122天就建成了,目前xAI正在对其进行扩建,计划部署总计20万颗英伟达Hopper gpu。

训练Grok需要强大的火力

Grok的人工智能模型非常大,Grok-1可以测量3140亿个参数,Grok-2在8月份推出时的表现超过了Claude 3.5 Sonnet和GPT-4 Turbo。

当然,训练这些模型需要显著的网络性能。使用Nvidia的Spectrum-X平台,xAI记录了零由于“流碰撞”或AI网络路径瓶颈而导致的应用程序遗留退化或数据包丢失。

xAI透露,Spectrum-X的拥塞控制功能使其能够保持95%的数据吞吐量。该公司补充说,这种级别的性能无法通过标准以太网在这种规模下提供。

TechRadar的头像TechRadar认证作者

相关推荐

  • Sam Altman 确认将在持续的 GPT-5 反弹声中提升 ChatGPT Plus 订阅用户的使用频率限制。

    Sam Altman 已确认,针对付费订阅用户,ChatGPT Plus 的推理能力使用频率限制将大幅提升,以回应付费用户的强烈反弹。 OpenAI CEO 在 X 上宣布了这一变化,他发推道:“我们正在显著提高 ChatGPT Plus 用户的推理速率限制,而且所有模型类别的限制很快都会超过 GPT-5 推出之前的水平。” Altman 还透露,将推出新的…

    2025年8月11日
    341
  • Google Tensor G5 跑分成绩外泄,效能表现让人担忧

    Googole 将在 2025 年推出 Pixel 10 系列手机,并将搭载自家研发的 Tensor G5 晶片,然而最近网路上传出一组全新的 Geekbench 跑分成绩,据称就是传说中的 Tensor G5 晶片。但值得注意的是,从目前资料显示,Google Tensor G5 晶片的分数不如预期,甚至可能比 Tensor G4 还要差强人意。 目前 G…

    2024年11月3日
    610
  • Apple 将收购 Pixelmator 人气图片编辑工具纳入旗下

    虽然 Adobe 的 Photoshop 和 Lightroom 相当普及,但仍然有一些优秀的竞争对手。其中 Pixelmator 最近宣佈与 Apple 达成收购协议,将会被纳入旗下。 Pixelmator 现时的 Pixelmator Pro、Pixelmator for iOS 和 Photomator 都是相当受欢迎的 Photoshop/Light…

    2024年11月3日
    473
  • 智能手机会在 2030 年代变得过时并被取代吗?

    智能手机之后的下一件大事会是什么?这是许多人一直在思考的问题,也有不少人在试图预测未来会取代我们便携设备的是什么。然而,对 Meta 的马克·扎克伯格来说,他设想了一个以视觉为核心的计算未来,这个未来由增强现实智能眼镜等可穿戴设备组成,最终会让智能手机变得过时。他正加倍下注于这个预测。 智能手机将被智能眼镜、智能手表甚至脑部植入设备等可穿戴设备取代的想法,已…

    2025年7月18日
    319
  • DJI 遇到对手了吗?Insta360 发布项目 Antigravity —— 全球首款 360 无人机

    Insta360 和 DJI 本周正在互相进军对方的领域,Insta360 今天发布了 Antigravity —— 一个历经多年打造的 360 度无人机项目,而 DJI 计划在 7 月 31 日推出其首款 360 相机。快递我爆米花吧。 Antigravity 的理念很简单:用全球首款 360 无人机实现沉浸式飞行。这个项目占有优势,因为它由全球领先的 3…

    2025年7月28日
    331

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注