NVIDIA AI Open Day 技術開放日演講視頻上線

LLM 訓練 / 推理 / CUDA 優化專場

此處下載技術資料:

https://scrm.nvidia.cn/mF/cms/none/FuceFYmFh5SGkhdaTzeC7N/e8WT66RnGUn6y5SwaaLx9F1

CUDA 優化核心:吞吐 • 延遲

co-newsletter-influencer-july-thumb-cptx-keynote-600×338-zhCN-3094203.jpg

專場簡介

本次分享聚焦 GPU CUDA 優化核心技術,從最大化計算性能、顯存帶寬利用率及降低延遲角度出發,通過分享 GPU 硬體與 CUDA 軟體編程的協同演進路線與優化背後的第一性原理,展示硬體架構與演算法設計的高效協同機制。最終結合 CUTLASS 等高性能框架工具實戰案例,助力開發者加速 AI 訓練/推理熱點場景(如 DeepSeek V3/R1 大模型優化),釋放 GPU 的極致性能。

  • GPU 計算與編程模型演進:非同步計算編程中的吞吐與延遲平衡
  • GPU 記憶體系統演進:最大化帶寬利用與延遲隱藏的技術路徑
  • CUDA 編程抽象演進:從 C++ 範本到 Python CUTLASS 開發

觀看全部視頻

https://space.bilibili.com/1320140761/lists/5626365?type=season

LLM 訓練專場

以 DeepSeek-V3 為代表的超大規模 MoE 模型正掀起人工智慧領域的新浪潮,其訓練效率對現有大模型框架提出了前所未有的挑戰。本次演講深入探討大規模 Fine-grained MoE 模型的性能突破,聚焦基於 Megatron-Core 的創新優化策略,包括顯存精細管理、計算通信重疊技術、低精度量化方法及並行策略優化,展示我們在這一前沿領域的突破性成果。

  • Megatron Core MoE in 2025 —— 架構、特性、性能優化以及在 DeepseekV3 上的最佳實踐
  • FP8 混合精度訓練方案與性能分析
  • 基於 Megatron-Core 的 FSDP 架構設計

觀看全部視頻

https://space.bilibili.com/1320140761/lists/5626365?type=season

LLM 推理專場

隨著大語言模型在各類應用中展現出強大的能力,如何高效、低成本地將其部署到實際業務,成為業界關注的焦點。本次圍繞 LLM 推理的最新進展,深入探討高效推理框架 TensorRT-LLM 的發展路線、PyTorch 工作流的實戰經驗,以及與業界和開源社區合作,在 DeepSeek 上推動推理優化的創新實踐。我們將通過案例分享、技術解析和現場交流,幫助開發者掌握前沿工具與優化方法,推動大模型在實際場景中的高效落地。

  • TensorRT-LLM 產品策略更新
  • TensorRT-LLM × PyTorch:高效能 LLM 推理的新開發範式
  • TensorRT-LLM 驅動 DeepSeek 性能極限 – 協同騰訊聯合優化實踐

觀看全部視頻:

https://space.bilibili.com/1320140761/lists/5626365?type=season

PHP Code Snippets Powered By : XYZScripts.com