AI 視頻生成將迎來 GPT 時代?

 視頻領域何時會迎來自己的 GPT 時代?過去一年,Text-to-Video 領域的進展遠比想象中迅速:Runway 先后發布了 Gen1、Gen2,推出的 Motion Brush 則在可靠性上向前了一步,Stability AI 也在上周發布了自己的首個 Text-to-Video 模型 Stable Video Diffusion。

AI 對視頻制作的改造可以簡單分為三類:視頻生成(Text-to-Generate)、AI 視頻編輯(AI Editor)以及數字人(Avator),后兩者從視頻編輯切入,用 AI 提效,而視頻生成意味着內容創作的極度民主化,有機會徹底改造傳統工作流。

技朮視角下,相對於文本、代碼和圖片生成,視頻生成(Text-to-Video)也一直被認為是 AIGC 的“高地”,面臨龐大的計算需求、高質量數據集短缺、可控性等挑戰。

AI 視頻生成已經取得了很大進步。如果看去年 AI 生成視頻的效果,再看今年 3 月份的,再看最近一兩個月的,你會發現視頻生成模型的發展非常快。可能在不久的未來,也許明年,就能達到 AI 圖片生成的效果。雖然現在視頻模型沒有那么完美,但圖片模型在一年半前也不好,現在已經非常好了。

視頻生成技朮和圖像生成相同點和不同點。  AI 生成圖片和 AI 生成視頻的模型有共通之處,它們相比於語言模型就是完全兩類模型,有專門生成圖片或者視頻的模型。 視頻有很多和圖片不一樣的問題,比如要確保視頻的流暢性、確保動作,視頻比圖像更大,需要更大的 GPU 內存,視頻生成需要考慮邏輯問題,還要考慮如何生成,是一幀一幀生成,還是一起生成,現在很多模型是一起生成,生成的視頻就很短。

視頻的每一幀都是一張圖片,但比圖片困難得多。每一幀的生成質量要高,相鄰幀之間還要有關聯性。當視頻很長時,確保每一幀都協調一致是個相當復雜的問題。在處理視頻數據時要處理多張圖片,模型需要適應這種情況。比如,如何將 100 幀圖片傳輸到 GPU 上是一個挑戰。而在推理時,由於涉及到生成大量幀,推理速度相對於單張圖片會更慢,計算成本也會增加。

視頻生成的關鍵點。  所有模型都很容易做一個 extension 的功能,把視頻時長延長很多,但它并沒有真的延長,因為它生成的動作沒有意義。比如說我們可以做 20 秒的走路視頻,但它可能做不了比如說走路、翻滾、奔跑之類的一個體操系列。所以我們不僅要延長視頻制作的時長,還要關注動作的意義,看它到底能做多復雜的動作。 盡管清晰度方面已經有突破,但還沒有提高到電影級的水平,現在生成的視頻一般是 720p 分辨率,視頻的流暢性也不夠理想,特別是一些細節的 texture。還需要考慮 general artifact 的問題,比如說一個人有兩個頭,就是這種明顯不符合常理的問題,也是需要避免的。

現在語言模型的路線很確定,有一個原因是 OpenAI 投入了很多資金去試,為什么 GPT 沒有用於視頻,可能因為他們的資源、人力都集中到了文本模型上。如果有一個公司投入很多資金,也許 diffusion model 也能做出不錯的語言模型。但大家既然已經看到 OpenAI 的方法奏效了,就覺得沒必要花費大量資金去投入別的方法。

目前視頻生成處於類似 GPT-2 的時期,很可能在未來一年內有一個顯著的提升。

回顧圖像生成在 2018 年時, “如果以后維基百科的插圖,都能根據維基百科的描述來生成該多好!” 到了2021年,已經有了 stable diffusion 和大模型。 所以視頻生成的突破也會比想象中快,到那個時候,生成視頻應該是一個非常可控的過程,以更自由的方式生成任意長度的視頻,而且生成的視頻可以是任意長度的,人們可以像導演一樣控制主角的行動,比如去咖啡館喝咖啡,然后去學校上課,再運用我們的產品把所有片段拼起來成為一個完整的小短片。

視頻領域的競爭可能會類似語言模型的競爭格局——一家公司發布新模型的時候,他們內部可能已經有了更先進的模型,領先其他公司一到兩年。未來在視頻領域也會是一家公司領先一到兩年、在沖鋒,其他公司在追趕。

首先在技朮方面,例如團隊是不是最聰明,是否是最創新的團隊,其次也和團隊相關,團隊需要一個清晰的目標,并一步步去執行這個目標。例如,數據是一個重要問題,處理一個數據集并不簡單,比如要獲取到 10 億條數據,過濾和標注 10 億條數據不是簡單的事,團隊要有能力處理整個流程,不會有特別多團隊能夠把這個流程做得特別好的。

視頻生成領域的高質量數據 。 首先是像素,就是畫質好不好,然后看審美和藝朮搆圖,第三方面是要有動作,并且這些動作是有意義的。比如電影里面其實有很多很漂亮的視頻,但大部分動作都是人站在那邊動嘴巴,雖然這些畫面非常漂亮、也是很多著名導演專門設計出來的,但如果把它們用來訓練模型不一定能完全做好。因為如果只用這些數據而不用其他內容的話,做出來的模型可能真的就學到后面所有人就只是在動嘴巴,也沒有其他有意義的動作。 另外,視頻的長度也很關鍵,如果模型都在 1 秒的視頻上進行訓練,那么想讓模型去生成 30 秒的視頻難度就很大,要么需要收集更多更長的數據讓模型學習,要么就去重新訓練模型的算法,讓它只通過學習 1 秒的視頻也能生成 30 秒的視頻。所以數據創新或算法創新是必不可少的。

視頻生成模型還需要模型的創新,也需要很多的 engineering,這件事情不是所有人都能做成的。OpenAI 也掌握了技朮壁壘,所以即使現在有了 LLaMa 這樣的開源模型,有很多人能做很多事情,但只有 OpenAI 能做 GPT-4。

要保持住先發優勢行業領先地位,需要 不斷積累資源,包括用戶資源、數據和 GPU 資源等等。技朮的發展和資源的積累其實是一個滾動的過程,比如說積累更多用戶也會有助於我們訓練模型。技朮團隊也非常重要,要招募更多技朮人才。

Interface 設計方面也很重要,最后很有可能一部分是技朮,另一部分是設計與技朮相結合,設計會為技朮發展提供靈感,技朮也可以支持設計,這個壁壘可能會越來越近。

開源社區可能沒有足夠的算力來訓練新的視頻模型,因為訓練一個新視頻模型需要非常多的機器。對於 Stable Diffusion,有人可能用 8 張 A100 就能從頭開始學習,并得到不錯的結果。但對於視頻模型,用 8 張 A100 可能不夠了,可能無法訓練出一個好的模型。而且視頻模型本身的問題還沒得到解決,因此大家可能會遇到一些瓶頸。首先,模型性能可能不夠好,其次,一些算法方面的問題也不夠好。但是修改模型、架搆,修改算法都需要從頭開始轉換模型,開源社區的人,甚至包括一些高校的人,沒有這么多機器用來這些探索性工作。因此,開源社區會面臨很大挑戰,除非有一天像 POTX 或 TAI 這樣的人有很多卡,願意做慈善,開源一個模型。除了一些大公司開源模型外,普通開源社區很難進行探索性工作。

視頻最終可能需要像訓練 GPT 那樣的大規模算力,現在大家還沒使用那么多算力,一方面是因為視頻模型還沒達到像 GPT 那樣的水平,另一方面是因為還有一些架搆和技朮上沒解決的問題。這些問題改善后,未來會有新一代的視頻模型達到類似 GPT 的規模。

PHP Code Snippets Powered By : XYZScripts.com