xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

英伟达揭示了xAI的“巨像”超级计算机集群是如何处理10万个Hopper gpu的——这一切都取决于该芯片制造商的Spectrum-X以太网网络平台。

该公司透露,Spectrum-X旨在通过其远程目录内存访问(RDMA)网络为多租户、超大规模的人工智能工厂提供大规模性能。

xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

该平台从一开始就部署在世界上最大的人工智能超级计算机“巨像”上。这家由埃隆·马斯克(Elon musk)所有的公司一直在使用该集群来训练其Grok系列大型语言模型(llm),这些模型为提供给X用户的聊天机器人提供动力。

该工厂与英伟达(Nvidia)合作仅用了122天就建成了,目前xAI正在对其进行扩建,计划部署总计20万颗英伟达Hopper gpu。

训练Grok需要强大的火力

Grok的人工智能模型非常大,Grok-1可以测量3140亿个参数,Grok-2在8月份推出时的表现超过了Claude 3.5 Sonnet和GPT-4 Turbo。

当然,训练这些模型需要显著的网络性能。使用Nvidia的Spectrum-X平台,xAI记录了零由于“流碰撞”或AI网络路径瓶颈而导致的应用程序遗留退化或数据包丢失。

xAI透露,Spectrum-X的拥塞控制功能使其能够保持95%的数据吞吐量。该公司补充说,这种级别的性能无法通过标准以太网在这种规模下提供。

TechRadar的头像TechRadar认证作者

相关推荐

  • 英特尔借鉴 AMD 功能,或将为集成显卡分配更多内存,从而更好地支持关键 AI 任务

    英特尔在其 Core Ultra 系统中新增了一项功能,这与 AMD 早前的做法类似。 这项名为“共享 GPU 内存覆盖(Shared GPU Memory Override)”的功能,允许用户将额外的系统 RAM 分配给集成显卡使用。 该功能主要面向依赖集成显卡而非独立 GPU 的设备,包括许多紧凑型笔记本和移动工作站型号。 内存分配与游戏性能 Intel…

    2025年8月21日
    74
  • 谷歌最新的 Gemini AI 模型意味着你的未来机器人管家即使没有 Wi-Fi 也能正常工作

    多年来,我们一直被承诺将拥有能够帮你叠衣服、切洋葱,甚至像我们最喜欢的古装剧中那样说出妙语连珠的机器人管家。但这些承诺从未提到一个问题——不小心拔掉路由器可能会让那个机械管家瘫痪。谷歌声称,其最新的 Gemini AI 模型解决了这个问题。 谷歌 DeepMind 推出了新的 Gemini 机器人端侧AI模型,旨在让机器人在电力中断和偏远地区工作时保持安全。…

    2025年6月26日
    231
  • Adobe Firefly发布首个视频生成模型,称其“可安全使用”

    Adobe揭开了它所称的“唯一一个在知识产权友好且商业安全的情况下生成视频内容的生成性AI视频模型”的面纱。 新的Firefly Video Model现已可以在Firefly网络应用和Adobe Premiere Pro的Generative Extend插件中进行测试,并且可以生成适用于创作者在线营销活动的、可以投入生产的AI生成视频内容。 这款视频生成…

    2025年2月12日
    280
  • 微软的人工智能助手Copilot几乎可以看到你在做什么

    微软(Microsoft)的人工智能助手Copilot将开始看到你在网上看到的东西。据x网站上的一篇文章称,这家科技巨头在一个月前对Copilot进行了重大改造,其中包括一项名为“Copilot Vision”的功能,该功能只针对注册了Copilot实验室实验中心的特定群体,但现在让人工智能能够看到你屏幕上的所有东西,这将是每个人的选择。 在收集了上个月左右…

    2024年11月5日
    400
  • 想象一下,看到图像,听到声音:ChatGPT在WhatsApp上现在支持图像和语音输入

    除了Meta自家的AI聊天机器人集成在WhatsApp中,ChatGPT也于去年12月上线,允许用户在该消息应用中直接访问OpenAI的更先进聊天机器人。此前,互动仅限于文本,但OpenAI现已宣布,ChatGPT在WhatsApp上现已支持图像和语音信息输入。 ChatGPT在WhatsApp上现可分析图片并聆听语音备忘录 OpenAI在X平台上发布的帖子…

    2025年2月7日
    393

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注