NVIDIA AI Open Day 技術開放日演講視頻上線

LLM 訓練 / 推理 / CUDA 優化專場

此處下載技術資料：

https://scrm.nvidia.cn/mF/cms/none/FuceFYmFh5SGkhdaTzeC7N/e8WT66RnGUn6y5SwaaLx9F1

CUDA 優化核心：吞吐 • 延遲

co-newsletter-influencer-july-thumb-cptx-keynote-600×338-zhCN-3094203.jpg

專場簡介

本次分享聚焦 GPU CUDA 優化核心技術，從最大化計算性能、顯存帶寬利用率及降低延遲角度出發，通過分享 GPU 硬體與 CUDA 軟體編程的協同演進路線與優化背後的第一性原理，展示硬體架構與演算法設計的高效協同機制。最終結合 CUTLASS 等高性能框架工具實戰案例，助力開發者加速 AI 訓練/推理熱點場景（如 DeepSeek V3/R1 大模型優化），釋放 GPU 的極致性能。

GPU 計算與編程模型演進：非同步計算編程中的吞吐與延遲平衡
GPU 記憶體系統演進：最大化帶寬利用與延遲隱藏的技術路徑
CUDA 編程抽象演進：從 C++ 範本到 Python CUTLASS 開發

觀看全部視頻

https://space.bilibili.com/1320140761/lists/5626365?type=season

LLM 訓練專場

以 DeepSeek-V3 為代表的超大規模 MoE 模型正掀起人工智慧領域的新浪潮，其訓練效率對現有大模型框架提出了前所未有的挑戰。本次演講深入探討大規模 Fine-grained MoE 模型的性能突破，聚焦基於 Megatron-Core 的創新優化策略，包括顯存精細管理、計算通信重疊技術、低精度量化方法及並行策略優化，展示我們在這一前沿領域的突破性成果。

Megatron Core MoE in 2025 —— 架構、特性、性能優化以及在 DeepseekV3 上的最佳實踐
FP8 混合精度訓練方案與性能分析
基於 Megatron-Core 的 FSDP 架構設計

觀看全部視頻

https://space.bilibili.com/1320140761/lists/5626365?type=season

LLM 推理專場

隨著大語言模型在各類應用中展現出強大的能力，如何高效、低成本地將其部署到實際業務，成為業界關注的焦點。本次圍繞 LLM 推理的最新進展，深入探討高效推理框架 TensorRT-LLM 的發展路線、PyTorch 工作流的實戰經驗，以及與業界和開源社區合作，在 DeepSeek 上推動推理優化的創新實踐。我們將通過案例分享、技術解析和現場交流，幫助開發者掌握前沿工具與優化方法，推動大模型在實際場景中的高效落地。

TensorRT-LLM 產品策略更新
TensorRT-LLM × PyTorch：高效能 LLM 推理的新開發範式
TensorRT-LLM 驅動 DeepSeek 性能極限 – 協同騰訊聯合優化實踐

觀看全部視頻:

https://space.bilibili.com/1320140761/lists/5626365?type=season

NVIDIA AI Open Day 技術開放日演講視頻上線

熱門頭條新聞

其他動漫資訊

動漫世界網絡中國站