Home - Celebrating the Art, Craft and Business of Animation

AI 視頻生成將迎來 GPT 時代？

視頻領域何時會迎來自己的 GPT 時代？過去一年，Text-to-Video 領域的進展遠比想象中迅速：Runway 先后發布了 Gen1、Gen2，推出的 Motion Brush 則在可靠性上向前了一步，Stability AI 也在上周發布了自己的首個 Text-to-Video 模型 Stable Video Diffusion。 AI 對視頻制作的改造可以簡單分為三類：視頻生成（Text-to-Generate）、AI 視頻編輯（AI Editor）以及數字人（Avator），后兩者從視頻編輯切入，用 AI 提效，而視頻生成意味着內容創作的極度民主化，有機會徹底改造傳統工作流。技朮視角下，相對於文本、代碼和圖片生成，視頻生成（Text-to-Video）也一直被認為是 AIGC 的“高地”，面臨龐大的計算需求、高質量數據集短缺、可控性等挑戰。 AI 視頻生成已經取得了很大進步。如果看去年 AI 生成視頻的效果，再看今年 3 月份的，再看最近一兩個月的，你會發現視頻生成模型的發展非常快。可能在不久的未來，也許明年，就能達到 AI 圖片生成的效果。雖然現在視頻模型沒有那么完美，但圖片模型在一年半前也不好，現在已經非常好了。視頻生成技朮和圖像生成相同點和不同點。 AI 生成圖片和 AI 生成視頻的模型有共通之處，它們相比於語言模型就是完全兩類模型，有專門生成圖片或者視頻的模型。視頻有很多和圖片不一樣的問題，比如要確保視頻的流暢性、確保動作，視頻比圖像更大，需要更大的 GPU 內存，視頻生成需要考慮邏輯問題，還要考慮如何生成，是一幀一幀生成，還是一起生成，現在很多模型是一起生成，生成的視頻就很短。視頻的每一幀都是一張圖片，但比圖片困難得多。每一幀的生成質量要高，相鄰幀之間還要有關聯性。當視頻很長時，確保每一幀都協調一致是個相當復雜的問題。在處理視頻數據時要處理多張圖片，模型需要適應這種情況。比如，如何將 100 幀圖片傳輸到 GPU 上是一個挑戰。而在推理時，由於涉及到生成大量幀，推理速度相對於單張圖片會更慢，計算成本也會增加。視頻生成的關鍵點。所有模型都很容易做一個 extension 的功能，把視頻時長延長很多，但它并沒有真的延長，因為它生成的動作沒有意義。比如說我們可以做 20 秒的走路視頻，但它可能做不了比如說走路、翻滾、奔跑之類的一個體操系列。所以我們不僅要延長視頻制作的時長，還要關注動作的意義，看它到底能做多復雜的動作。盡管清晰度方面已經有突破，但還沒有提高到電影級的水平，現在生成的視頻一般是 720p 分辨率，視頻的流暢性也不夠理想，特別是一些細節的 texture。還需要考慮 general artifact 的問題，比如說一個人有兩個頭，就是這種明顯不符合常理的問題，也是需要避免的。[.....]