最新的NVIDIA图形研究推动了生成人工智能的下一个前沿

英伟达将在今年最重要的计算机图形学会议SIGGRAPH上发表大约20篇研究论文。

英伟达今天推出了一系列尖端的人工智能研究,使开发人员和艺术家能够将他们的想法变为现实-无论是静止还是移动,是2D还是3D,是超现实还是幻想。

NVIDIA研究论文大约又20多篇——包括与美国、欧洲和以色列的十几所大学的合作——将在8月6日至10日在洛杉矶举行的SIGGRAPH 2023计算机图形会议上发表。

这些论文包括将文本转化为个性化图像的生成式人工智能模型;将静止图像转换为3D对象的反向渲染工具;神经物理模型,使用AI模拟复杂的3D元素,具有惊人的真实感;以及神经渲染模型,这些模型解锁了生成实时、人工智能视觉细节的新功能。

NVIDIA研究人员的创新成果定期在GitHub上与开发人员分享,并被整合到产品中,包括用于构建和运行元宇宙应用程序的NVIDIA Omniverse平台和NVIDIA Picasso,后者是最近宣布的用于视觉设计的定制生成人工智能模型代工厂。英伟达多年的图形研究帮助将电影风格的渲染带到游戏中,比如最近发布的《赛博朋克2077:光线追踪:超速模式》,这是世界上第一款路径追踪的AAA级游戏。

今年在SIGGRAPH上展示的研究进展将帮助开发人员和企业快速生成合成数据,以填充机器人和自动驾驶汽车培训的虚拟世界。它们还将使艺术、建筑、平面设计、游戏开发和电影创作者能够更快地为故事板、预览甚至制作制作高质量的视觉效果。

具有个人触摸的人工智能:自定义文本到图像模型

生成式AI模型可以将文本转换为图像,是为电影、视频游戏和3D虚拟世界创建概念艺术或故事板的强大工具。文字到图像的人工智能工具可以把“儿童玩具”这样的提示变成创作者可以用来激发灵感的几乎无限的视觉效果——生成填充动物、积木或拼图的图像。

然而,艺术家可能会有一个特定的主题。例如,一个玩具品牌的创意总监可能正在策划一个围绕一个新泰迪熊的广告活动,并希望在不同的情况下想象这个玩具,比如一个泰迪熊茶会。为了在生成式人工智能模型的输出中实现这种水平的特异性,特拉维夫大学和NVIDIA的研究人员有两篇SIGGRAPH论文,使用户能够提供模型快速学习的图像示例。

其中一篇论文描述了一种需要单个示例图像来定制其输出的技术,在单个NVIDIA A100 Tensor Core GPU上将个性化过程从几分钟加速到大约11秒,比以前的个性化方法快60倍以上。

 

第二篇论文介绍了一个高度紧凑的模型,称为灌注,它采用少量概念图像,允许用户将多个个性化元素(例如特定的泰迪熊和茶壶)组合成一个单一的人工智能生成的视觉效果。

服务于3D:在逆向渲染和角色创建的进展

一旦创作者想出了虚拟世界的概念艺术,下一步就是渲染环境,并用3D物体和角色填充它。NVIDIA研究院正在研发人工智能技术,通过自动将2D图像和视频转换为3D表示,创作者可以将其导入图形应用程序进行进一步编辑,从而加快这一耗时的过程。

与加州大学圣地亚哥分校的研究人员共同撰写的第三篇论文讨论了一项技术,该技术可以基于单个2D肖像生成和渲染逼真的3D人头和肩膀模型——这是一项重大突破,使3D头像创建和3D视频会议可以通过人工智能实现。该方法可以在消费者的桌面上实时运行,并且仅使用传统的网络摄像头或智能手机摄像头就可以生成逼真的或程式化的3D远程呈现。

第四个项目是与斯坦福大学合作,为3D角色带来栩栩如生的动作。研究人员创造了一个人工智能系统,可以从真实网球比赛的2D视频记录中学习一系列网球技能,并将这种动作应用于3D角色。模拟网球选手可以在虚拟球场上准确击球到目标位置,甚至可以与其他角色进行长时间的对打。

除了网球的测试案例之外,这篇SIGGRAPH论文解决了制作3D角色的困难挑战,这些角色可以在不使用昂贵的动作捕捉数据的情况下,用逼真的动作执行各种技能。

每根头发都合适:神经物理使现实的模拟

一旦生成了3D角色,艺术家们就可以在逼真的细节上分层,比如头发——这对动画师来说是一个复杂的、计算成本很高的挑战。

人类头上平均有10万根头发,每根头发都对个人的动作和周围环境做出动态反应。传统上,创作者使用物理公式来计算头发的运动,根据可用的资源简化或近似它的运动。这就是为什么大制作电影中的虚拟角色的头发比实时视频游戏中的角色更精细。

第五篇论文展示了一种方法,可以使用神经物理以高分辨率实时模拟数万根头发,神经物理是一种人工智能技术,可以教会神经网络预测物体在现实世界中的移动方式。

该团队精确模拟全尺寸头发的新方法专门针对现代gpu进行了优化。与最先进的基于cpu的解决方案相比,它提供了显着的性能飞跃,将模拟时间从数天减少到仅仅几个小时-同时还提高了实时头发模拟的质量。这项技术最终实现了准确和交互式的基于物理的头发梳理。

神经渲染为实时图形带来电影质量的细节

在一个充满了动画3D物体和角色的环境中,实时渲染模拟了光通过虚拟场景反射的物理效果。NVIDIA最近的研究表明,纹理、材料和体积的人工智能模型可以为视频游戏和数字双胞胎实时提供电影质量、逼真的视觉效果。

NVIDIA在二十多年前发明了可编程着色,使开发人员能够自定义图形管道。在这些最新的经渲染发明中,研究人员使用运行在NVIDIA实时图形管道深处的AI模型扩展了可编程的着色代码。

在第六篇SIGGRAPH论文中,NVIDIA将展示神经纹理压缩,它可以在不占用额外GPU内存的情况下提供多达16倍的纹理细节。神经纹理压缩可以大大增加3D场景的真实感,如下图所示,它展示了神经压缩纹理(右)如何比以前的格式捕获更清晰的细节,其中文本仍然模糊(中)。

显示一页文本的三窗格图像,带有模糊文本的放大版本和带有清晰文本的放大版本。

神经纹理压缩(右)提供了比以前的纹理格式多16倍的纹理细节,而无需使用额外的GPU内存。

去年发表的一篇相关论文现在可以以NeuralVDB的形式获得早期访问,这是一种支持人工智能的数据压缩技术,可以将表示体积数据(如烟、火、云和水)所需的内存减少100倍。

NVIDIA今天还发布了在最近的NVIDIA GTC主题演讲中展示的更多关于神经材料研究的细节。这篇论文描述了一个人工智能系统,该系统可以学习光线如何从真实的多层材料中反射,将这些资产的复杂性降低到实时运行的小型神经网络,从而使着色速度提高10倍。

在这把神经渲染的茶壶中,可以看出它的逼真程度,它准确地代表了陶瓷、不完美的透明釉、指纹、污迹甚至灰尘。

渲染了一个金色把手的陶瓷蓝色茶壶的特写图像

神经材料模型学习光线如何从多层的、真实的参考材料中反射。

更多的生成AI和图形研究

这些只是亮点-阅读更多关于所有的NVIDIA论文在SIGGRAPH。NVIDIA还将在大会上提供六门课程、四场演讲和两场新兴技术演示,主题包括路径追踪、远程呈现和生成式人工智能的扩散模型。

NVIDIA研究院在全球拥有数百名科学家和工程师,其团队专注于人工智能、计算机图形学、计算机视觉、自动驾驶汽车和机器人等主题。

 

PHP Code Snippets Powered By : XYZScripts.com