NVIDIA Blackwell Ultra AI推理時代
NVIDIA Blackwell Ultra繫統在黑色背景上的圖像。
多年來,通過預訓練擴展,人工智能的進步遵循着一條清晰的軌跡:更大的模型、更多的數據和更多的計算資源會帶來突破性的能力。在過去的5年裡,預訓練擴展以驚人的速度增加了5000萬倍的計算需求。然而,構建更智能的繫統不再僅僅是預訓練更大的模型。相反,它是關於提煉他們,讓他們思考。
通過將人工智能模型細化到專門的任務,訓練後擴展改進了模型,以提供更多的會話響應。使用特定於領域的數據和合成數據調優模型可以增強它們理解細微差別上下文並提供準確輸出的能力。合成數據的生成對於訓練模型的可用內容沒有上限,這意味着在訓練後擴展中需要大量的計算資源。
現在,一種新的放大智力的縮放定律出現了:測試時間縮放。
也被稱爲長時間思考,測試時間縮放動態地增加AI推理期間的計算,以實現更深入的推理。人工智能推理模型不隻是在一次傳遞中産生反應,它們會積極思考,權衡多種可能性,並實時優化答案。這讓我們離真正的人工智能更近了一步——人工智能可以獨立思考和行動,處理更複雜的任務,並提供更有用的答案。
這種向訓練後擴展和測試時間擴展的轉變需要更多的計算、實時處理和高速互連。爲了開髮定製的衍生模型,後訓練可能需要比預訓練多30倍的計算,而長時間思考可能需要比單個推理多100倍的計算來解決難以置信的複雜任務。
Blackwell Ultra: NVIDIA GB300 NVL72
爲了滿足這一需求,英偉達推出了Blackwell Ultra,這是一款爲人工智能推理時代打造的加速計算平颱,包括訓練、後訓練和測試時間縮放。Blackwell Ultra專爲大規模人工智能推理而設計,提供更智能、更快、更高效的人工智能和最佳TCO。
Blackwell Ultra將成爲NVIDIA GB300 NVL72繫統的核心,這是一種液冷機架級解決方案,在單個72 GPU NVLink域中連接36個NVIDIA Grace cpu和72個Blackwell Ultra GPU,可作爲單個大型GPU,總NVLink帶寬爲130 TB/s。
Blackwell Ultra爲實時、多智能體AI繫統流程和長上下文推理帶來了更多的AI推理性能。與Blackwell gpu相比,新的Blackwell Ultra Tensor內核提供1.5倍以上的AI計算FLOPS,或者與HGX H100相比,GB300 NVL72提供70倍以上的AI FLOPS。Blackwell Ultra支持多種FP4社區格式,可爲最先進的AI優化內存使用。
憑藉每個GPU高達288 GB的HBM3e內存和每個GB300 NVL72機架高達40 TB的高速GPU和CPU相幹內存,Blackwell Ultra爲AI,研究,實時分析等領域的突破打開了大門。它提供了同時爲許多大型模型服務所需的大規模內存,並一次處理來自許多並髮用戶的大量複雜任務,從而提高了性能並減少了延遲。
與Blackwell相比,Blackwell Ultra Tensor core在處理大量端到端上下文長度方麵的注意力層加速速度是其兩倍,這對於處理數百萬輸入令牌的實時代理和推理AI應用程序至關重要。
優化大規模、多節點推理
跨大規模GPU部署的人工智能推理請求的高效編排和協調對於最小化運營成本和最大化人工智能工廠中基於令牌的收入至關重要。
爲了支持這些優勢,Blackwell Ultra具有與NVIDIA ConnectX-8 800G SuperNIC的PCIe Gen6連接,將可用網絡帶寬提高到800 Gb/s。
更多的網絡帶寬意味着更大的性能。利用NVIDIA Dynamo這個開源庫來擴展推理AI服務。Dynamo是一個模塊化的推理框架,用於在多節點環境中服務AI模型。它可以跨GPU節點擴展推理工作負載,並動態分配GPU工作人員,以緩解流量瓶頸。
Dynamo還具有分解服務功能,它將上下文(預填充)和生成(解碼)階段分開,用於跨gpu的大型語言模型(LLM)推理,以優化性能,更容易擴展,並降低成本。
繫統中每個GPU的總數據吞吐量可達800gb /s, GB300 NVL72與NVIDIA Quantum-X800和NVIDIA Spectrum-X網絡平颱無縫集成,使AI工廠和雲數據中心能夠輕鬆處理三種縮放律的需求。
人工智能工廠産量提高50倍
一張圖表對比了NVIDIA Hopper和Blackwell Ultra,顯示人工智能工廠的産量增加了50倍。縱軸表示1兆瓦每秒的代幣,而橫軸表示一個用戶每秒的代幣。收益曲線表明從霍珀到佈萊克威爾Ultra的産量增加。
圖1所示。與Hopper相比,使用GB300 NVL72的AI工廠産量增加了50倍
圖1顯示了兩個關鍵參數,它們決定了最大化人工智能工廠産出的多個操作點。縱軸表示1兆瓦(MW)數據中心中的每秒吞吐量令牌,而橫軸通過單個用戶的每秒令牌(TPS)量化用戶交互性響應。
與Hopper相比,採用NVIDIA GB300 NVL72的AI工廠將實現每用戶TPS的10倍提昇,每兆瓦TPS的5倍提昇。這種綜合效應使人工智能工廠的産出性能總體潛力提高了50倍。
總結
藉助Blackwell Ultra,更快的人工智能推理可以實現實時洞察、更智能、反應更靈敏的聊天機器人、增強的預測分析,並在金融、醫療保健和電子商務等行業改進更高效的人工智能代理。這個尖端的平颱使組織能夠在不犧牲速度的情況下處理更大的模型和人工智能推理工作負載,使先進的人工智能功能更易於訪問和實用於現實世界的應用程序。
NVIDIA Blackwell Ultra産品預計將於2025年下半年由合作夥伴提供,並將得到所有主要雲服務提供商和服務器製造商的支持。