NVIDIA AI Open Day 技术开放日演讲视频上线

LLM 训练 / 推理 / CUDA 优化专场

此处下载技术资料:

https://scrm.nvidia.cn/mF/cms/none/FuceFYmFh5SGkhdaTzeC7N/e8WT66RnGUn6y5SwaaLx9F1

CUDA 优化核心:吞吐 • 延迟

co-newsletter-influencer-july-thumb-cptx-keynote-600×338-zhCN-3094203.jpg

专场简介

本次分享聚焦 GPU CUDA 优化核心技术,从最大化计算性能、显存带宽利用率及降低延迟角度出发,通过分享 GPU 硬件与 CUDA 软件编程的协同演进路线与优化背后的第一性原理,展示硬件架构与算法设计的高效协同机制。最终结合 CUTLASS 等高性能框架工具实战案例,助力开发者加速 AI 训练/推理热点场景(如 DeepSeek V3/R1 大模型优化),释放 GPU 的极致性能。

  • GPU 计算与编程模型演进:异步计算编程中的吞吐与延迟平衡
  • GPU 内存系统演进:最大化带宽利用与延迟隐藏的技术路径
  • CUDA 编程抽象演进:从 C++ 模板到 Python CUTLASS 开发

观看全部视频

https://space.bilibili.com/1320140761/lists/5626365?type=season

LLM 训练专场

以 DeepSeek-V3 为代表的超大规模 MoE 模型正掀起人工智能领域的新浪潮,其训练效率对现有大模型框架提出了前所未有的挑战。本次演讲深入探讨大规模 Fine-grained MoE 模型的性能突破,聚焦基于 Megatron-Core 的创新优化策略,包括显存精细管理、计算通信重叠技术、低精度量化方法及并行策略优化,展示我们在这一前沿领域的突破性成果。

  • Megatron Core MoE in 2025 —— 架构、特性、性能优化以及在 DeepseekV3 上的最佳实践
  • FP8 混合精度训练方案与性能分析
  • 基于 Megatron-Core 的 FSDP 架构设计

观看全部视频

https://space.bilibili.com/1320140761/lists/5626365?type=season

LLM 推理专场

随着大语言模型在各类应用中展现出强大的能力,如何高效、低成本地将其部署到实际业务,成为业界关注的焦点。本次围绕 LLM 推理的最新进展,深入探讨高效推理框架 TensorRT-LLM 的发展路线、PyTorch 工作流的实战经验,以及与业界和开源社区合作,在 DeepSeek 上推动推理优化的创新实践。我们将通过案例分享、技术解析和现场交流,帮助开发者掌握前沿工具与优化方法,推动大模型在实际场景中的高效落地。

  • TensorRT-LLM 产品策略更新
  • TensorRT-LLM × PyTorch:高效能 LLM 推理的新开发范式
  • TensorRT-LLM 驱动 DeepSeek 性能极限 – 协同腾讯联合优化实践

观看全部视频:

https://space.bilibili.com/1320140761/lists/5626365?type=season

PHP Code Snippets Powered By : XYZScripts.com