NVIDIA Blackwell Ultra AI推理时代
NVIDIA Blackwell Ultra系统在黑色背景上的图像。
多年来,通过预训练扩展,人工智能的进步遵循着一条清晰的轨迹:更大的模型、更多的数据和更多的计算资源会带来突破性的能力。在过去的5年里,预训练扩展以惊人的速度增加了5000万倍的计算需求。然而,构建更智能的系统不再仅仅是预训练更大的模型。相反,它是关于提炼他们,让他们思考。
通过将人工智能模型细化到专门的任务,训练后扩展改进了模型,以提供更多的会话响应。使用特定于领域的数据和合成数据调优模型可以增强它们理解细微差别上下文并提供准确输出的能力。合成数据的生成对于训练模型的可用内容没有上限,这意味着在训练后扩展中需要大量的计算资源。
现在,一种新的放大智力的缩放定律出现了:测试时间缩放。
也被称为长时间思考,测试时间缩放动态地增加AI推理期间的计算,以实现更深入的推理。人工智能推理模型不只是在一次传递中产生反应,它们会积极思考,权衡多种可能性,并实时优化答案。这让我们离真正的人工智能更近了一步——人工智能可以独立思考和行动,处理更复杂的任务,并提供更有用的答案。
这种向训练后扩展和测试时间扩展的转变需要更多的计算、实时处理和高速互连。为了开发定制的衍生模型,后训练可能需要比预训练多30倍的计算,而长时间思考可能需要比单个推理多100倍的计算来解决难以置信的复杂任务。
Blackwell Ultra: NVIDIA GB300 NVL72
为了满足这一需求,英伟达推出了Blackwell Ultra,这是一款为人工智能推理时代打造的加速计算平台,包括训练、后训练和测试时间缩放。Blackwell Ultra专为大规模人工智能推理而设计,提供更智能、更快、更高效的人工智能和最佳TCO。
Blackwell Ultra将成为NVIDIA GB300 NVL72系统的核心,这是一种液冷机架级解决方案,在单个72 GPU NVLink域中连接36个NVIDIA Grace cpu和72个Blackwell Ultra GPU,可作为单个大型GPU,总NVLink带宽为130 TB/s。
Blackwell Ultra为实时、多智能体AI系统流程和长上下文推理带来了更多的AI推理性能。与Blackwell gpu相比,新的Blackwell Ultra Tensor内核提供1.5倍以上的AI计算FLOPS,或者与HGX H100相比,GB300 NVL72提供70倍以上的AI FLOPS。Blackwell Ultra支持多种FP4社区格式,可为最先进的AI优化内存使用。
凭借每个GPU高达288 GB的HBM3e内存和每个GB300 NVL72机架高达40 TB的高速GPU和CPU相干内存,Blackwell Ultra为AI,研究,实时分析等领域的突破打开了大门。它提供了同时为许多大型模型服务所需的大规模内存,并一次处理来自许多并发用户的大量复杂任务,从而提高了性能并减少了延迟。
与Blackwell相比,Blackwell Ultra Tensor core在处理大量端到端上下文长度方面的注意力层加速速度是其两倍,这对于处理数百万输入令牌的实时代理和推理AI应用程序至关重要。
优化大规模、多节点推理
跨大规模GPU部署的人工智能推理请求的高效编排和协调对于最小化运营成本和最大化人工智能工厂中基于令牌的收入至关重要。
为了支持这些优势,Blackwell Ultra具有与NVIDIA ConnectX-8 800G SuperNIC的PCIe Gen6连接,将可用网络带宽提高到800 Gb/s。
更多的网络带宽意味着更大的性能。利用NVIDIA Dynamo这个开源库来扩展推理AI服务。Dynamo是一个模块化的推理框架,用于在多节点环境中服务AI模型。它可以跨GPU节点扩展推理工作负载,并动态分配GPU工作人员,以缓解流量瓶颈。
Dynamo还具有分解服务功能,它将上下文(预填充)和生成(解码)阶段分开,用于跨gpu的大型语言模型(LLM)推理,以优化性能,更容易扩展,并降低成本。
系统中每个GPU的总数据吞吐量可达800gb /s, GB300 NVL72与NVIDIA Quantum-X800和NVIDIA Spectrum-X网络平台无缝集成,使AI工厂和云数据中心能够轻松处理三种缩放律的需求。
人工智能工厂产量提高50倍
一张图表对比了NVIDIA Hopper和Blackwell Ultra,显示人工智能工厂的产量增加了50倍。纵轴表示1兆瓦每秒的代币,而横轴表示一个用户每秒的代币。收益曲线表明从霍珀到布莱克威尔Ultra的产量增加。
图1所示。与Hopper相比,使用GB300 NVL72的AI工厂产量增加了50倍
图1显示了两个关键参数,它们决定了最大化人工智能工厂产出的多个操作点。纵轴表示1兆瓦(MW)数据中心中的每秒吞吐量令牌,而横轴通过单个用户的每秒令牌(TPS)量化用户交互性响应。
与Hopper相比,采用NVIDIA GB300 NVL72的AI工厂将实现每用户TPS的10倍提升,每兆瓦TPS的5倍提升。这种综合效应使人工智能工厂的产出性能总体潜力提高了50倍。
总结
借助Blackwell Ultra,更快的人工智能推理可以实现实时洞察、更智能、反应更灵敏的聊天机器人、增强的预测分析,并在金融、医疗保健和电子商务等行业改进更高效的人工智能代理。这个尖端的平台使组织能够在不牺牲速度的情况下处理更大的模型和人工智能推理工作负载,使先进的人工智能功能更易于访问和实用于现实世界的应用程序。
NVIDIA Blackwell Ultra产品预计将于2025年下半年由合作伙伴提供,并将得到所有主要云服务提供商和服务器制造商的支持。