AI 视频生成将迎来 GPT 时代?

 视频领域何时会迎来自己的 GPT 时代?过去一年,Text-to-Video 领域的进展远比想象中迅速:Runway 先后发布了 Gen1、Gen2,推出的 Motion Brush 则在可靠性上向前了一步,Stability AI 也在上周发布了自己的首个 Text-to-Video 模型 Stable Video Diffusion。

AI 对视频制作的改造可以简单分为三类:视频生成(Text-to-Generate)、AI 视频编辑(AI Editor)以及数字人(Avator),后两者从视频编辑切入,用 AI 提效,而视频生成意味着内容创作的极度民主化,有机会彻底改造传统工作流。

技术视角下,相对于文本、代码和图片生成,视频生成(Text-to-Video)也一直被认为是 AIGC 的“高地”,面临庞大的计算需求、高质量数据集短缺、可控性等挑战。

AI 视频生成已经取得了很大进步。如果看去年 AI 生成视频的效果,再看今年 3 月份的,再看最近一两个月的,你会发现视频生成模型的发展非常快。可能在不久的未来,也许明年,就能达到 AI 图片生成的效果。虽然现在视频模型没有那么完美,但图片模型在一年半前也不好,现在已经非常好了。

视频生成技术和图像生成相同点和不同点。  AI 生成图片和 AI 生成视频的模型有共通之处,它们相比于语言模型就是完全两类模型,有专门生成图片或者视频的模型。 视频有很多和图片不一样的问题,比如要确保视频的流畅性、确保动作,视频比图像更大,需要更大的 GPU 内存,视频生成需要考虑逻辑问题,还要考虑如何生成,是一帧一帧生成,还是一起生成,现在很多模型是一起生成,生成的视频就很短。

视频的每一帧都是一张图片,但比图片困难得多。每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是个相当复杂的问题。在处理视频数据时要处理多张图片,模型需要适应这种情况。比如,如何将 100 帧图片传输到 GPU 上是一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。

视频生成的关键点。  所有模型都很容易做一个 extension 的功能,把视频时长延长很多,但它并没有真的延长,因为它生成的动作没有意义。比如说我们可以做 20 秒的走路视频,但它可能做不了比如说走路、翻滚、奔跑之类的一个体操系列。所以我们不仅要延长视频制作的时长,还要关注动作的意义,看它到底能做多复杂的动作。 尽管清晰度方面已经有突破,但还没有提高到电影级的水平,现在生成的视频一般是 720p 分辨率,视频的流畅性也不够理想,特别是一些细节的 texture。还需要考虑 general artifact 的问题,比如说一个人有两个头,就是这种明显不符合常理的问题,也是需要避免的。

现在语言模型的路线很确定,有一个原因是 OpenAI 投入了很多资金去试,为什么 GPT 没有用于视频,可能因为他们的资源、人力都集中到了文本模型上。如果有一个公司投入很多资金,也许 diffusion model 也能做出不错的语言模型。但大家既然已经看到 OpenAI 的方法奏效了,就觉得没必要花费大量资金去投入别的方法。

目前视频生成处于类似 GPT-2 的时期,很可能在未来一年内有一个显著的提升。

回顾图像生成在 2018 年时, “如果以后维基百科的插图,都能根据维基百科的描述来生成该多好!” 到了2021年,已经有了 stable diffusion 和大模型。 所以视频生成的突破也会比想象中快,到那个时候,生成视频应该是一个非常可控的过程,以更自由的方式生成任意长度的视频,而且生成的视频可以是任意长度的,人们可以像导演一样控制主角的行动,比如去咖啡馆喝咖啡,然后去学校上课,再运用我们的产品把所有片段拼起来成为一个完整的小短片。

视频领域的竞争可能会类似语言模型的竞争格局——一家公司发布新模型的时候,他们内部可能已经有了更先进的模型,领先其他公司一到两年。未来在视频领域也会是一家公司领先一到两年、在冲锋,其他公司在追赶。

首先在技术方面,例如团队是不是最聪明,是否是最创新的团队,其次也和团队相关,团队需要一个清晰的目标,并一步步去执行这个目标。例如,数据是一个重要问题,处理一个数据集并不简单,比如要获取到 10 亿条数据,过滤和标注 10 亿条数据不是简单的事,团队要有能力处理整个流程,不会有特别多团队能够把这个流程做得特别好的。

视频生成领域的高质量数据 。 首先是像素,就是画质好不好,然后看审美和艺术构图,第三方面是要有动作,并且这些动作是有意义的。比如电影里面其实有很多很漂亮的视频,但大部分动作都是人站在那边动嘴巴,虽然这些画面非常漂亮、也是很多著名导演专门设计出来的,但如果把它们用来训练模型不一定能完全做好。因为如果只用这些数据而不用其他内容的话,做出来的模型可能真的就学到后面所有人就只是在动嘴巴,也没有其他有意义的动作。 另外,视频的长度也很关键,如果模型都在 1 秒的视频上进行训练,那么想让模型去生成 30 秒的视频难度就很大,要么需要收集更多更长的数据让模型学习,要么就去重新训练模型的算法,让它只通过学习 1 秒的视频也能生成 30 秒的视频。所以数据创新或算法创新是必不可少的。

视频生成模型还需要模型的创新,也需要很多的 engineering,这件事情不是所有人都能做成的。OpenAI 也掌握了技术壁垒,所以即使现在有了 LLaMa 这样的开源模型,有很多人能做很多事情,但只有 OpenAI 能做 GPT-4。

要保持住先发优势行业领先地位,需要 不断积累资源,包括用户资源、数据和 GPU 资源等等。技术的发展和资源的积累其实是一个滚动的过程,比如说积累更多用户也会有助于我们训练模型。技术团队也非常重要,要招募更多技术人才。

Interface 设计方面也很重要,最后很有可能一部分是技术,另一部分是设计与技术相结合,设计会为技术发展提供灵感,技术也可以支持设计,这个壁垒可能会越来越近。

开源社区可能没有足够的算力来训练新的视频模型,因为训练一个新视频模型需要非常多的机器。对于 Stable Diffusion,有人可能用 8 张 A100 就能从头开始学习,并得到不错的结果。但对于视频模型,用 8 张 A100 可能不够了,可能无法训练出一个好的模型。而且视频模型本身的问题还没得到解决,因此大家可能会遇到一些瓶颈。首先,模型性能可能不够好,其次,一些算法方面的问题也不够好。但是修改模型、架构,修改算法都需要从头开始转换模型,开源社区的人,甚至包括一些高校的人,没有这么多机器用来这些探索性工作。因此,开源社区会面临很大挑战,除非有一天像 POTX 或 TAI 这样的人有很多卡,愿意做慈善,开源一个模型。除了一些大公司开源模型外,普通开源社区很难进行探索性工作。

视频最终可能需要像训练 GPT 那样的大规模算力,现在大家还没使用那么多算力,一方面是因为视频模型还没达到像 GPT 那样的水平,另一方面是因为还有一些架构和技术上没解决的问题。这些问题改善后,未来会有新一代的视频模型达到类似 GPT 的规模。

PHP Code Snippets Powered By : XYZScripts.com