NVIDIA AI Open Day 技術開放日演講視頻上線

LLM 訓練 / 推理 / CUDA 優化專場
此處下載技術資料:
https://scrm.nvidia.cn/mF/cms/none/FuceFYmFh5SGkhdaTzeC7N/e8WT66RnGUn6y5SwaaLx9F1
CUDA 優化核心:吞吐 • 延遲
co-newsletter-influencer-july-thumb-cptx-keynote-600×338-zhCN-3094203.jpg

專場簡介
本次分享聚焦 GPU CUDA 優化核心技術,從最大化計算性能、顯存帶寬利用率及降低延遲角度出發,通過分享 GPU 硬體與 CUDA 軟體編程的協同演進路線與優化背後的第一性原理,展示硬體架構與演算法設計的高效協同機制。最終結合 CUTLASS 等高性能框架工具實戰案例,助力開發者加速 AI 訓練/推理熱點場景(如 DeepSeek V3/R1 大模型優化),釋放 GPU 的極致性能。
- GPU 計算與編程模型演進:非同步計算編程中的吞吐與延遲平衡
- GPU 記憶體系統演進:最大化帶寬利用與延遲隱藏的技術路徑
- CUDA 編程抽象演進:從 C++ 範本到 Python CUTLASS 開發

觀看全部視頻
https://space.bilibili.com/1320140761/lists/5626365?type=season
LLM 訓練專場
以 DeepSeek-V3 為代表的超大規模 MoE 模型正掀起人工智慧領域的新浪潮,其訓練效率對現有大模型框架提出了前所未有的挑戰。本次演講深入探討大規模 Fine-grained MoE 模型的性能突破,聚焦基於 Megatron-Core 的創新優化策略,包括顯存精細管理、計算通信重疊技術、低精度量化方法及並行策略優化,展示我們在這一前沿領域的突破性成果。
- Megatron Core MoE in 2025 —— 架構、特性、性能優化以及在 DeepseekV3 上的最佳實踐
- FP8 混合精度訓練方案與性能分析
- 基於 Megatron-Core 的 FSDP 架構設計
觀看全部視頻
https://space.bilibili.com/1320140761/lists/5626365?type=season
LLM 推理專場
隨著大語言模型在各類應用中展現出強大的能力,如何高效、低成本地將其部署到實際業務,成為業界關注的焦點。本次圍繞 LLM 推理的最新進展,深入探討高效推理框架 TensorRT-LLM 的發展路線、PyTorch 工作流的實戰經驗,以及與業界和開源社區合作,在 DeepSeek 上推動推理優化的創新實踐。我們將通過案例分享、技術解析和現場交流,幫助開發者掌握前沿工具與優化方法,推動大模型在實際場景中的高效落地。
- TensorRT-LLM 產品策略更新
- TensorRT-LLM × PyTorch:高效能 LLM 推理的新開發範式
- TensorRT-LLM 驅動 DeepSeek 性能極限 – 協同騰訊聯合優化實踐
觀看全部視頻:
https://space.bilibili.com/1320140761/lists/5626365?type=season
熱門頭條新聞
- 數譜環球 CGGE 代表中國 Blender 社區出席 BCON Austin 2026,美國官方 Blender 大會
- 2026 全球移動應用市場報告:存量提質、AI 驅動,產業邁向高質量增長新週期
- 2026 年 3 月全球手遊收入榜:中國廠商領跑全球,市場穩健增長
- PC遊戲移植手機:移植還是不移植?
- Gamesforum 發佈《2026 年全球手遊核心挑戰報告》:AI 重構增長邏輯,精細化運營成破局關鍵
- IDC 2025H2 遊戲雲報告發佈:騰訊雲用量規模持續領跑,穩居中國與全球雙料領導者
- 漫威裁員 8%:迪士尼全球成本重組風暴來襲,好萊塢超英宇宙與內容產業迎結構性拐點
- 3月國漫風雲錄:仙逆斷層登頂,修仙漫劇集體炸場,市場步入“群雄並起”新時代