NVIDIA AI Open Day 技术开放日演讲视频上线

LLM 训练 / 推理 / CUDA 优化专场

此处下载技术资料：

https://scrm.nvidia.cn/mF/cms/none/FuceFYmFh5SGkhdaTzeC7N/e8WT66RnGUn6y5SwaaLx9F1

CUDA 优化核心：吞吐 • 延迟

co-newsletter-influencer-july-thumb-cptx-keynote-600×338-zhCN-3094203.jpg

专场简介

本次分享聚焦 GPU CUDA 优化核心技术，从最大化计算性能、显存带宽利用率及降低延迟角度出发，通过分享 GPU 硬件与 CUDA 软件编程的协同演进路线与优化背后的第一性原理，展示硬件架构与算法设计的高效协同机制。最终结合 CUTLASS 等高性能框架工具实战案例，助力开发者加速 AI 训练/推理热点场景（如 DeepSeek V3/R1 大模型优化），释放 GPU 的极致性能。

GPU 计算与编程模型演进：异步计算编程中的吞吐与延迟平衡
GPU 内存系统演进：最大化带宽利用与延迟隐藏的技术路径
CUDA 编程抽象演进：从 C++ 模板到 Python CUTLASS 开发

观看全部视频

https://space.bilibili.com/1320140761/lists/5626365?type=season

LLM 训练专场

以 DeepSeek-V3 为代表的超大规模 MoE 模型正掀起人工智能领域的新浪潮，其训练效率对现有大模型框架提出了前所未有的挑战。本次演讲深入探讨大规模 Fine-grained MoE 模型的性能突破，聚焦基于 Megatron-Core 的创新优化策略，包括显存精细管理、计算通信重叠技术、低精度量化方法及并行策略优化，展示我们在这一前沿领域的突破性成果。

Megatron Core MoE in 2025 —— 架构、特性、性能优化以及在 DeepseekV3 上的最佳实践
FP8 混合精度训练方案与性能分析
基于 Megatron-Core 的 FSDP 架构设计

观看全部视频

https://space.bilibili.com/1320140761/lists/5626365?type=season

LLM 推理专场

随着大语言模型在各类应用中展现出强大的能力，如何高效、低成本地将其部署到实际业务，成为业界关注的焦点。本次围绕 LLM 推理的最新进展，深入探讨高效推理框架 TensorRT-LLM 的发展路线、PyTorch 工作流的实战经验，以及与业界和开源社区合作，在 DeepSeek 上推动推理优化的创新实践。我们将通过案例分享、技术解析和现场交流，帮助开发者掌握前沿工具与优化方法，推动大模型在实际场景中的高效落地。

TensorRT-LLM 产品策略更新
TensorRT-LLM × PyTorch：高效能 LLM 推理的新开发范式
TensorRT-LLM 驱动 DeepSeek 性能极限 – 协同腾讯联合优化实践

观看全部视频:

https://space.bilibili.com/1320140761/lists/5626365?type=season

NVIDIA AI Open Day 技术开放日演讲视频上线

熱門頭條新聞

其他動漫資訊

動漫世界網絡中國站