最新的NVIDIA圖形研究推動了生成人工智能的下壹個前沿


英偉達將在今年最重要的計算機圖形學會議SIGGRAPH上發表大約20篇研究論文。
英偉達今天推出了壹系列尖端的人工智能研究,使開發人員和藝術家能夠將他們的想法變為現實-無論是靜止還是移動,是2D還是3D,是超現實還是幻想。

NVIDIA研究論文大約又20多篇——包括與美國、歐洲和以色列的十幾所大學的合作——將在8月6日至10日在洛杉磯舉行的SIGGRAPH 2023計算機圖形會議上發表。

這些論文包括將文本轉化為個性化圖像的生成式人工智能模型;將靜止圖像轉換為3D對象的反向渲染工具;神經物理模型,使用AI模擬復雜的3D元素,具有驚人的真實感;以及神經渲染模型,這些模型解鎖了生成實時、人工智能視覺細節的新功能。

NVIDIA研究人員的創新成果定期在GitHub上與開發人員分享,並被整合到產品中,包括用於構建和運行元宇宙應用程序的NVIDIA Omniverse平臺和NVIDIA Picasso,後者是最近宣布的用於視覺設計的定制生成人工智能模型代工廠。英偉達多年的圖形研究幫助將電影風格的渲染帶到遊戲中,比如最近發布的《賽博朋克2077:光線追蹤:超速模式》,這是世界上第壹款路徑追蹤的AAA級遊戲。

今年在SIGGRAPH上展示的研究進展將幫助開發人員和企業快速生成合成數據,以填充機器人和自動駕駛汽車培訓的虛擬世界。它們還將使藝術、建築、平面設計、遊戲開發和電影創作者能夠更快地為故事板、預覽甚至制作制作高質量的視覺效果。

具有個人觸摸的人工智能:自定義文本到圖像模型
生成式AI模型可以將文本轉換為圖像,是為電影、視頻遊戲和3D虛擬世界創建概念藝術或故事板的強大工具。文字到圖像的人工智能工具可以把“兒童玩具”這樣的提示變成創作者可以用來激發靈感的幾乎無限的視覺效果——生成填充動物、積木或拼圖的圖像。

然而,藝術家可能會有壹個特定的主題。例如,壹個玩具品牌的創意總監可能正在策劃壹個圍繞壹個新泰迪熊的廣告活動,並希望在不同的情況下想象這個玩具,比如壹個泰迪熊茶會。為了在生成式人工智能模型的輸出中實現這種水平的特異性,特拉維夫大學和NVIDIA的研究人員有兩篇SIGGRAPH論文,使用戶能夠提供模型快速學習的圖像示例。

其中壹篇論文描述了壹種需要單個示例圖像來定制其輸出的技術,在單個NVIDIA A100 Tensor Core GPU上將個性化過程從幾分鐘加速到大約11秒,比以前的個性化方法快60倍以上。

第二篇論文介紹了壹個高度緊湊的模型,稱為灌註,它采用少量概念圖像,允許用戶將多個個性化元素(例如特定的泰迪熊和茶壺)組合成壹個單壹的人工智能生成的視覺效果。


服務於3D:在逆向渲染和角色創建的進展
壹旦創作者想出了虛擬世界的概念藝術,下壹步就是渲染環境,並用3D物體和角色填充它。NVIDIA研究院正在研發人工智能技術,通過自動將2D圖像和視頻轉換為3D表示,創作者可以將其導入圖形應用程序進行進壹步編輯,從而加快這壹耗時的過程。

與加州大學聖地亞哥分校的研究人員共同撰寫的第三篇論文討論了壹項技術,該技術可以基於單個2D肖像生成和渲染逼真的3D人頭和肩膀模型——這是壹項重大突破,使3D頭像創建和3D視頻會議可以通過人工智能實現。該方法可以在消費者的桌面上實時運行,並且僅使用傳統的網絡攝像頭或智能手機攝像頭就可以生成逼真的或程式化的3D遠程呈現。

第四個項目是與斯坦福大學合作,為3D角色帶來栩栩如生的動作。研究人員創造了壹個人工智能系統,可以從真實網球比賽的2D視頻記錄中學習壹系列網球技能,並將這種動作應用於3D角色。模擬網球選手可以在虛擬球場上準確擊球到目標位置,甚至可以與其他角色進行長時間的對打。

除了網球的測試案例之外,這篇SIGGRAPH論文解決了制作3D角色的困難挑戰,這些角色可以在不使用昂貴的動作捕捉數據的情況下,用逼真的動作執行各種技能。

每根頭發都合適:神經物理使現實的模擬
壹旦生成了3D角色,藝術家們就可以在逼真的細節上分層,比如頭發——這對動畫師來說是壹個復雜的、計算成本很高的挑戰。

人類頭上平均有10萬根頭發,每根頭發都對個人的動作和周圍環境做出動態反應。傳統上,創作者使用物理公式來計算頭發的運動,根據可用的資源簡化或近似它的運動。這就是為什麽大制作電影中的虛擬角色的頭發比實時視頻遊戲中的角色更精細。

第五篇論文展示了壹種方法,可以使用神經物理以高分辨率實時模擬數萬根頭發,神經物理是壹種人工智能技術,可以教會神經網絡預測物體在現實世界中的移動方式。

該團隊精確模擬全尺寸頭發的新方法專門針對現代gpu進行了優化。與最先進的基於cpu的解決方案相比,它提供了顯著的性能飛躍,將模擬時間從數天減少到僅僅幾個小時-同時還提高了實時頭發模擬的質量。這項技術最終實現了準確和交互式的基於物理的頭發梳理。

神經渲染為實時圖形帶來電影質量的細節
在壹個充滿了動畫3D物體和角色的環境中,實時渲染模擬了光通過虛擬場景反射的物理效果。NVIDIA最近的研究表明,紋理、材料和體積的人工智能模型可以為視頻遊戲和數字雙胞胎實時提供電影質量、逼真的視覺效果。

NVIDIA在二十多年前發明了可編程著色,使開發人員能夠自定義圖形管道。在這些最新的神經渲染發明中,研究人員使用運行在NVIDIA實時圖形管道深處的AI模型擴展了可編程的著色代碼。

在第六篇SIGGRAPH論文中,NVIDIA將展示神經紋理壓縮,它可以在不占用額外GPU內存的情況下提供多達16倍的紋理細節。神經紋理壓縮可以大大增加3D場景的真實感,如下圖所示,它展示了神經壓縮紋理(右)如何比以前的格式捕獲更清晰的細節,其中文本仍然模糊(中)。

顯示壹頁文本的三窗格圖像,帶有模糊文本的放大版本和帶有清晰文本的放大版本。
神經紋理壓縮(右)提供了比以前的紋理格式多16倍的紋理細節,而無需使用額外的GPU內存。
去年發表的壹篇相關論文現在可以以NeuralVDB的形式獲得早期訪問,這是壹種支持人工智能的數據壓縮技術,可以將表示體積數據(如煙、火、雲和水)所需的內存減少100倍。

NVIDIA今天還發布了在最近的NVIDIA GTC主題演講中展示的更多關於神經材料研究的細節。這篇論文描述了壹個人工智能系統,該系統可以學習光線如何從真實的多層材料中反射,將這些資產的復雜性降低到實時運行的小型神經網絡,從而使著色速度提高10倍。

在這把神經渲染的茶壺中,可以看出它的逼真程度,它準確地代表了陶瓷、不完美的透明釉、指紋、汙跡甚至灰塵。

渲染了壹個金色把手的陶瓷藍色茶壺的特寫圖像
神經材料模型學習光線如何從多層的、真實的參考材料中反射。
更多的生成AI和圖形研究
這些只是亮點-閱讀更多關於所有的NVIDIA論文在SIGGRAPH。NVIDIA還將在大會上提供六門課程、四場演講和兩場新興技術演示,主題包括路徑追蹤、遠程呈現和生成式人工智能的擴散模型。

NVIDIA研究院在全球擁有數百名科學家和工程師,其團隊專註於人工智能、計算機圖形學、計算機視覺、自動駕駛汽車和機器人等主題。

PHP Code Snippets Powered By : XYZScripts.com