AI 視頻生成將迎來 GPT 時代?

 視頻領域何時會迎來自己的 GPT 時代?過去一年,Text-to-Video 領域的進展遠比想象中迅速:Runway 先后發布了 Gen1、Gen2,推出的 Motion Brush 則在可靠性上向前了一步,Stability AI 也在上周發布了自己的首個 Text-to-Video 模型 Stable Video Diffusion。 AI 對視頻制作的改造可以簡單分為三類:視頻生成(Text-to-Generate)、AI 視頻編輯(AI Editor)以及數字人(Avator),后兩者從視頻編輯切入,用 AI 提效,而視頻生成意味着內容創作的極度民主化,有機會徹底改造傳統工作流。 技朮視角下,相對於文本、代碼和圖片生成,視頻生成(Text-to-Video)也一直被認為是 AIGC 的“高地”,面臨龐大的計算需求、高質量數據集短缺、可控性等挑戰。 AI 視頻生成已經取得了很大進步。如果看去年 AI 生成視頻的效果,再看今年 3 月份的,再看最近一兩個月的,你會發現視頻生成模型的發展非常快。可能在不久的未來,也許明年,就能達到 AI 圖片生成的效果。雖然現在視頻模型沒有那么完美,但圖片模型在一年半前也不好,現在已經非常好了。 視頻生成技朮和圖像生成相同點和不同點。  AI 生成圖片和 AI 生成視頻的模型有共通之處,它們相比於語言模型就是完全兩類模型,有專門生成圖片或者視頻的模型。 視頻有很多和圖片不一樣的問題,比如要確保視頻的流暢性、確保動作,視頻比圖像更大,需要更大的 GPU 內存,視頻生成需要考慮邏輯問題,還要考慮如何生成,是一幀一幀生成,還是一起生成,現在很多模型是一起生成,生成的視頻就很短。 視頻的每一幀都是一張圖片,但比圖片困難得多。每一幀的生成質量要高,相鄰幀之間還要有關聯性。當視頻很長時,確保每一幀都協調一致是個相當復雜的問題。在處理視頻數據時要處理多張圖片,模型需要適應這種情況。比如,如何將 100 幀圖片傳輸到 GPU 上是一個挑戰。而在推理時,由於涉及到生成大量幀,推理速度相對於單張圖片會更慢,計算成本也會增加。 視頻生成的關鍵點。  所有模型都很容易做一個 extension 的功能,把視頻時長延長很多,但它并沒有真的延長,因為它生成的動作沒有意義。比如說我們可以做 20 秒的走路視頻,但它可能做不了比如說走路、翻滾、奔跑之類的一個體操系列。所以我們不僅要延長視頻制作的時長,還要關注動作的意義,看它到底能做多復雜的動作。 盡管清晰度方面已經有突破,但還沒有提高到電影級的水平,現在生成的視頻一般是 720p 分辨率,視頻的流暢性也不夠理想,特別是一些細節的 texture。還需要考慮 general artifact 的問題,比如說一個人有兩個頭,就是這種明顯不符合常理的問題,也是需要避免的。[.....]

Read More...