xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

英伟达揭示了xAI的“巨像”超级计算机集群是如何处理10万个Hopper gpu的——这一切都取决于该芯片制造商的Spectrum-X以太网网络平台。

该公司透露,Spectrum-X旨在通过其远程目录内存访问(RDMA)网络为多租户、超大规模的人工智能工厂提供大规模性能。

xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

该平台从一开始就部署在世界上最大的人工智能超级计算机“巨像”上。这家由埃隆·马斯克(Elon musk)所有的公司一直在使用该集群来训练其Grok系列大型语言模型(llm),这些模型为提供给X用户的聊天机器人提供动力。

该工厂与英伟达(Nvidia)合作仅用了122天就建成了,目前xAI正在对其进行扩建,计划部署总计20万颗英伟达Hopper gpu。

训练Grok需要强大的火力

Grok的人工智能模型非常大,Grok-1可以测量3140亿个参数,Grok-2在8月份推出时的表现超过了Claude 3.5 Sonnet和GPT-4 Turbo。

当然,训练这些模型需要显著的网络性能。使用Nvidia的Spectrum-X平台,xAI记录了零由于“流碰撞”或AI网络路径瓶颈而导致的应用程序遗留退化或数据包丢失。

xAI透露,Spectrum-X的拥塞控制功能使其能够保持95%的数据吞吐量。该公司补充说,这种级别的性能无法通过标准以太网在这种规模下提供。

TechRadar的头像TechRadar认证作者

相关推荐

  • 微软希望通过其新的开发工具让构建人工智能应用程序变得更简单

    微软推出了几款新的人工智能驱动工具,旨在改善开发人员体验,以及全新的 GitHub Copilot for Azure,这是一个将嵌入到 Visual Studio Code 等流行开发环境中的编码助手。 微软开发人员部门产品首席副总裁 Amanda Silver 在接受VentureBeat采访时表示,开发人员面临着越来越多的工具,这些工具会导致“认知超载…

    2024年11月2日
    212
  • Apple Intelligence已登场!一分钟了解首批新功能有哪些

    Apple于28日晚间发表搭载M4处理器的iMac,并让个人智慧系统Apple Intelligence正式登场,包括iPhone、iPad和Mac的使用者将可以在iOS 18.1、iPadOS 18.1和macOS Sequoia 15.1等作业系统中,开始使用Apple Intelligence的功能。 Apple Intelligence的首批功能包括…

    2024年10月30日
    170
  • 华为推出的新款 MatePad 让我不禁思考:那些好用又便宜的平板都去哪了?

    我来告诉你一个秘密:我其实很讨厌更新我们的“最佳廉价平板推荐”指南。不是因为我反对经济实惠的数码平板,而是因为我对 2025 年廉价平板市场的现状感到失望。 在撰写本文时,真正值得考虑的低端平板屈指可数,而除了苹果最新的入门级 iPad 之外,很难推荐其他产品——但我也承认,对大多数人来说,它已经算不上“便宜”了。 所以,当华为宣布推出全新版本的 MateP…

    2025年7月31日
    51
  • 特斯拉为Apple Watch用户带来无钥匙进入等功能

    特斯拉推出了专为Apple Watch设计的应用程序,使用户能够轻松控制他们的车辆。从锁车和解锁到调节气候设置,这款新的watchOS应用程序与特斯拉的iPhone iOS应用程序无缝集成,并作为期待已久的特斯拉假日更新的一部分发布。 此前的消息已暗示特斯拉计划开发这一应用程序,现在,电动汽车巨头已正式确认这一消息。预计更新将在下周开始推出,作为更广泛的特斯…

    2024年12月6日
    332
  • 微软最新一轮大规模裁员将裁撤 9,000 名员工

    微软将裁员 9,000 人,其中大多数被裁员工来自其游戏部门。 微软发言人通过 CNBC 表示:“我们将继续推进必要的组织结构调整,以便在瞬息万变的市场中更好地定位公司及团队,取得成功。” 据 CNBC 援引知情人士消息称,此次裁员旨在减少一线员工与高层管理之间的管理层级。 微软再度宣布裁员 裁员已经成为许多大型企业的趋势。微软早在 2025 年 1 月 就…

    2025年7月4日
    106

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注