网络效率提升至95%,英伟达破局AI算力瓶颈

英伟达发布专为AI优化的Spectrum-X以太网技术,获Meta和甲骨文采用,用于构建高效AI数据中心,旨在显著提升大规模AI训练效率。

作者: AIPH
分类:业界新闻
13 次阅读

       在近期举办的圣何CP全球峰会(圣何塞)上,英伟达向外界展示了其构建“十亿瓦级AI工厂”的蓝图,并透露Meta与甲骨文两家科技企业已确定采用英伟达Spectrum-X以太网网络交换技术,以优化其人工智能数据中心网络架构。此举有望加速大规模AI集群的部署进程,并显著提升人工智能模型的训练效率。


001.jpg


       英伟达首席执行官黄仁勋在发言中指出,Spectrum-X不仅仅是以太网技术的升级,更被定位为“AI工厂的神经中枢”。该技术旨在帮助超大规模计算企业将海量GPU整合为一台巨型计算设备,从而支撑前所未有的大型模型训练任务。


       Spectrum-X以太网平台是英伟达面向万亿参数模型时代推出的专用网络解决方案,由Spectrum-X交换机与超级网卡共同构成。官方信息显示,该平台在网络拥塞控制方面表现突出,在全球最大AI超级计算机的测试中实现了95%的数据吞吐率。相比之下,常规大规模以太网在相似负载下容易发生频繁流量冲突,吞吐量通常仅能达到约60%。


       这一技术突破被视作AI可扩展网络在成本与性能方面的重要进展。作为Spectrum-X网络平台的关键组成部分,Spectrum-XGS技术支持跨地域的数据中心互联,能够将分布在不同城市、国家甚至大洲的计算节点整合为统一的十亿瓦级AI运算工厂。


       该平台基于英伟达全栈技术(包括GPU、CPU、NVLink互联及配套软件),实现了从计算到网络的无缝性能衔接。其内置的智能拥塞控制、自适应路由及AI遥测功能,确保了大规模AI训练与推理任务的高效和稳定运行。


       甲骨文公司计划建设基于Spectrum-X以太网互联的十亿瓦级AI工厂。其云基础设施执行副总裁Mahesh Thiagarajan表示,采用该技术将助力客户以更高效率互连数百万GPU,从而更快地完成生成式AI与推理型AI的训练与部署。


       Meta则计划将Spectrum以太网交换机集成到其自研的Facebook开放交换系统(FBOSS)中。FBOSS是一套用于大规模网络交换机管理与控制的软件平台。此次集成旨在加速AI基础设施的规模化部署,提升训练效率并缩短数据洞察的延迟。


002.jpg


       Meta网络工程副总裁Gaya Nagarajan指出,公司下一代AI基础设施需要能够支持空前规模的开放高效网络。通过将Spectrum以太网技术融入Minipack3N交换机及FBOSS系统,Meta能够在延续开放网络策略的同时,获得训练更大模型所需的效率与可预测性,从而将生成式AI应用推向全球数十亿用户。


       另一方面,英伟达NVLink Fusion技术生态也在持续扩展,该技术帮助企业将半定制芯片无缝集成到经过高度优化的数据中心架构中,有助于降低系统复杂性与研发周期。


       英特尔与三星代工厂已宣布加入NVLink Fusion生态系统。该生态涵盖定制芯片设计公司、CPU及IP合作伙伴,旨在共同推动AI工厂快速扩展,以应对模型训练与Agentic AI推理等高负载任务。


       目前,NVLink Fusion生态的新增合作伙伴包括:

      • CPU合作伙伴:富士通、英特尔、高通;
      • 定制芯片合作伙伴:AIchip、Astera Labs、GUC、Marvell、联发科、三星;
      • 技术合作伙伴:楷登电子(Cadence)、新思科技(Synopsys)。


       作为英伟达与英特尔合作的一部分,英特尔将开发可借助NVLink Fusion接入英伟达基础设施平台的x86架构CPU。同时,三星代工厂已与英伟达达成合作,将为定制CPU及XPU提供从设计到制造的全流程支持,以满足市场对定制化算力芯片的持续增长需求。


       当前,构建十亿瓦级AI计算集群已成为业界领先芯片企业的共同目标。英伟达Spectrum-X以太网及Spectrum-XGS技术结合了开放计算项目(OCP)的开放性与高性能特性,已获得Meta与甲骨文等重要客户的采用。这些面向跨规模扩展而设计的技术,预计将进一步推动大规模AI训练与推理的整体效能,加速生成式AI技术的开发与普及进程。


(撰写 | 潇飞)