NVIDIA AI Open Day 技术开放日演讲视频上线

LLM 训练 / 推理 / CUDA 优化专场
此处下载技术资料:
https://scrm.nvidia.cn/mF/cms/none/FuceFYmFh5SGkhdaTzeC7N/e8WT66RnGUn6y5SwaaLx9F1
CUDA 优化核心:吞吐 • 延迟
co-newsletter-influencer-july-thumb-cptx-keynote-600×338-zhCN-3094203.jpg

专场简介
本次分享聚焦 GPU CUDA 优化核心技术,从最大化计算性能、显存带宽利用率及降低延迟角度出发,通过分享 GPU 硬件与 CUDA 软件编程的协同演进路线与优化背后的第一性原理,展示硬件架构与算法设计的高效协同机制。最终结合 CUTLASS 等高性能框架工具实战案例,助力开发者加速 AI 训练/推理热点场景(如 DeepSeek V3/R1 大模型优化),释放 GPU 的极致性能。
- GPU 计算与编程模型演进:异步计算编程中的吞吐与延迟平衡
- GPU 内存系统演进:最大化带宽利用与延迟隐藏的技术路径
- CUDA 编程抽象演进:从 C++ 模板到 Python CUTLASS 开发

观看全部视频
https://space.bilibili.com/1320140761/lists/5626365?type=season
LLM 训练专场
以 DeepSeek-V3 为代表的超大规模 MoE 模型正掀起人工智能领域的新浪潮,其训练效率对现有大模型框架提出了前所未有的挑战。本次演讲深入探讨大规模 Fine-grained MoE 模型的性能突破,聚焦基于 Megatron-Core 的创新优化策略,包括显存精细管理、计算通信重叠技术、低精度量化方法及并行策略优化,展示我们在这一前沿领域的突破性成果。
- Megatron Core MoE in 2025 —— 架构、特性、性能优化以及在 DeepseekV3 上的最佳实践
- FP8 混合精度训练方案与性能分析
- 基于 Megatron-Core 的 FSDP 架构设计
观看全部视频
https://space.bilibili.com/1320140761/lists/5626365?type=season
LLM 推理专场
随着大语言模型在各类应用中展现出强大的能力,如何高效、低成本地将其部署到实际业务,成为业界关注的焦点。本次围绕 LLM 推理的最新进展,深入探讨高效推理框架 TensorRT-LLM 的发展路线、PyTorch 工作流的实战经验,以及与业界和开源社区合作,在 DeepSeek 上推动推理优化的创新实践。我们将通过案例分享、技术解析和现场交流,帮助开发者掌握前沿工具与优化方法,推动大模型在实际场景中的高效落地。
- TensorRT-LLM 产品策略更新
- TensorRT-LLM × PyTorch:高效能 LLM 推理的新开发范式
- TensorRT-LLM 驱动 DeepSeek 性能极限 – 协同腾讯联合优化实践
观看全部视频:
https://space.bilibili.com/1320140761/lists/5626365?type=season
熱門頭條新聞
- 数谱环球 CGGE 代表中国 Blender 社区出席 BCON Austin 2026,美国官方 Blender 大会
- 2026 全球移动应用市场报告:存量提质、AI 驱动,产业迈向高质量增长新周期
- 2026 年 3 月全球手游收入榜:中国厂商领跑全球,市场稳健增长
- Gamesforum 发布《2026 年全球手游核心挑战报告》
- IDC 2025H2 游戏云报告发布:腾讯云用量规模持续领跑,稳居中国与全球双料领导者
- 漫威裁员 8%:迪士尼全球成本重组风暴来袭,好莱坞超英宇宙与内容产业迎结构性拐点
- 3月国漫风云录:仙逆断层登顶,修仙漫剧集体炸场,市场步入“群雄并起”新时代
- 北欧游戏 2026 演讲嘉宾更新