NVIDIA AI Open Day 技術開放日演講視頻上線

LLM 訓練 / 推理 / CUDA 優化專場
此處下載技術資料:
https://scrm.nvidia.cn/mF/cms/none/FuceFYmFh5SGkhdaTzeC7N/e8WT66RnGUn6y5SwaaLx9F1
CUDA 優化核心:吞吐 • 延遲
co-newsletter-influencer-july-thumb-cptx-keynote-600×338-zhCN-3094203.jpg

專場簡介
本次分享聚焦 GPU CUDA 優化核心技術,從最大化計算性能、顯存帶寬利用率及降低延遲角度出發,通過分享 GPU 硬體與 CUDA 軟體編程的協同演進路線與優化背後的第一性原理,展示硬體架構與演算法設計的高效協同機制。最終結合 CUTLASS 等高性能框架工具實戰案例,助力開發者加速 AI 訓練/推理熱點場景(如 DeepSeek V3/R1 大模型優化),釋放 GPU 的極致性能。
- GPU 計算與編程模型演進:非同步計算編程中的吞吐與延遲平衡
- GPU 記憶體系統演進:最大化帶寬利用與延遲隱藏的技術路徑
- CUDA 編程抽象演進:從 C++ 範本到 Python CUTLASS 開發

觀看全部視頻
https://space.bilibili.com/1320140761/lists/5626365?type=season
LLM 訓練專場
以 DeepSeek-V3 為代表的超大規模 MoE 模型正掀起人工智慧領域的新浪潮,其訓練效率對現有大模型框架提出了前所未有的挑戰。本次演講深入探討大規模 Fine-grained MoE 模型的性能突破,聚焦基於 Megatron-Core 的創新優化策略,包括顯存精細管理、計算通信重疊技術、低精度量化方法及並行策略優化,展示我們在這一前沿領域的突破性成果。
- Megatron Core MoE in 2025 —— 架構、特性、性能優化以及在 DeepseekV3 上的最佳實踐
- FP8 混合精度訓練方案與性能分析
- 基於 Megatron-Core 的 FSDP 架構設計
觀看全部視頻
https://space.bilibili.com/1320140761/lists/5626365?type=season
LLM 推理專場
隨著大語言模型在各類應用中展現出強大的能力,如何高效、低成本地將其部署到實際業務,成為業界關注的焦點。本次圍繞 LLM 推理的最新進展,深入探討高效推理框架 TensorRT-LLM 的發展路線、PyTorch 工作流的實戰經驗,以及與業界和開源社區合作,在 DeepSeek 上推動推理優化的創新實踐。我們將通過案例分享、技術解析和現場交流,幫助開發者掌握前沿工具與優化方法,推動大模型在實際場景中的高效落地。
- TensorRT-LLM 產品策略更新
- TensorRT-LLM × PyTorch:高效能 LLM 推理的新開發範式
- TensorRT-LLM 驅動 DeepSeek 性能極限 – 協同騰訊聯合優化實踐
觀看全部視頻:
https://space.bilibili.com/1320140761/lists/5626365?type=season
