AI 视频生成将迎来 GPT 时代？

视频领域何时会迎来自己的 GPT 时代？过去一年，Text-to-Video 领域的进展远比想象中迅速：Runway 先后发布了 Gen1、Gen2，推出的 Motion Brush 则在可靠性上向前了一步，Stability AI 也在上周发布了自己的首个 Text-to-Video 模型 Stable Video Diffusion。

AI 对视频制作的改造可以简单分为三类：视频生成（Text-to-Generate）、AI 视频编辑（AI Editor）以及数字人（Avator），后两者从视频编辑切入，用 AI 提效，而视频生成意味着内容创作的极度民主化，有机会彻底改造传统工作流。

技术视角下，相对于文本、代码和图片生成，视频生成（Text-to-Video）也一直被认为是 AIGC 的“高地”，面临庞大的计算需求、高质量数据集短缺、可控性等挑战。

AI 视频生成已经取得了很大进步。如果看去年 AI 生成视频的效果，再看今年 3 月份的，再看最近一两个月的，你会发现视频生成模型的发展非常快。可能在不久的未来，也许明年，就能达到 AI 图片生成的效果。虽然现在视频模型没有那么完美，但图片模型在一年半前也不好，现在已经非常好了。

视频生成技术和图像生成相同点和不同点。 AI 生成图片和 AI 生成视频的模型有共通之处，它们相比于语言模型就是完全两类模型，有专门生成图片或者视频的模型。视频有很多和图片不一样的问题，比如要确保视频的流畅性、确保动作，视频比图像更大，需要更大的 GPU 内存，视频生成需要考虑逻辑问题，还要考虑如何生成，是一帧一帧生成，还是一起生成，现在很多模型是一起生成，生成的视频就很短。

视频的每一帧都是一张图片，但比图片困难得多。每一帧的生成质量要高，相邻帧之间还要有关联性。当视频很长时，确保每一帧都协调一致是个相当复杂的问题。在处理视频数据时要处理多张图片，模型需要适应这种情况。比如，如何将 100 帧图片传输到 GPU 上是一个挑战。而在推理时，由于涉及到生成大量帧，推理速度相对于单张图片会更慢，计算成本也会增加。

视频生成的关键点。所有模型都很容易做一个 extension 的功能，把视频时长延长很多，但它并没有真的延长，因为它生成的动作没有意义。比如说我们可以做 20 秒的走路视频，但它可能做不了比如说走路、翻滚、奔跑之类的一个体操系列。所以我们不仅要延长视频制作的时长，还要关注动作的意义，看它到底能做多复杂的动作。尽管清晰度方面已经有突破，但还没有提高到电影级的水平，现在生成的视频一般是 720p 分辨率，视频的流畅性也不够理想，特别是一些细节的 texture。还需要考虑 general artifact 的问题，比如说一个人有两个头，就是这种明显不符合常理的问题，也是需要避免的。

现在语言模型的路线很确定，有一个原因是 OpenAI 投入了很多资金去试，为什么 GPT 没有用于视频，可能因为他们的资源、人力都集中到了文本模型上。如果有一个公司投入很多资金，也许 diffusion model 也能做出不错的语言模型。但大家既然已经看到 OpenAI 的方法奏效了，就觉得没必要花费大量资金去投入别的方法。

目前视频生成处于类似 GPT-2 的时期，很可能在未来一年内有一个显著的提升。

回顾图像生成在 2018 年时， “如果以后维基百科的插图，都能根据维基百科的描述来生成该多好！” 到了2021年，已经有了 stable diffusion 和大模型。所以视频生成的突破也会比想象中快，到那个时候，生成视频应该是一个非常可控的过程，以更自由的方式生成任意长度的视频，而且生成的视频可以是任意长度的，人们可以像导演一样控制主角的行动，比如去咖啡馆喝咖啡，然后去学校上课，再运用我们的产品把所有片段拼起来成为一个完整的小短片。

视频领域的竞争可能会类似语言模型的竞争格局——一家公司发布新模型的时候，他们内部可能已经有了更先进的模型，领先其他公司一到两年。未来在视频领域也会是一家公司领先一到两年、在冲锋，其他公司在追赶。

首先在技术方面，例如团队是不是最聪明，是否是最创新的团队，其次也和团队相关，团队需要一个清晰的目标，并一步步去执行这个目标。例如，数据是一个重要问题，处理一个数据集并不简单，比如要获取到 10 亿条数据，过滤和标注 10 亿条数据不是简单的事，团队要有能力处理整个流程，不会有特别多团队能够把这个流程做得特别好的。

视频生成领域的高质量数据。首先是像素，就是画质好不好，然后看审美和艺术构图，第三方面是要有动作，并且这些动作是有意义的。比如电影里面其实有很多很漂亮的视频，但大部分动作都是人站在那边动嘴巴，虽然这些画面非常漂亮、也是很多著名导演专门设计出来的，但如果把它们用来训练模型不一定能完全做好。因为如果只用这些数据而不用其他内容的话，做出来的模型可能真的就学到后面所有人就只是在动嘴巴，也没有其他有意义的动作。另外，视频的长度也很关键，如果模型都在 1 秒的视频上进行训练，那么想让模型去生成 30 秒的视频难度就很大，要么需要收集更多更长的数据让模型学习，要么就去重新训练模型的算法，让它只通过学习 1 秒的视频也能生成 30 秒的视频。所以数据创新或算法创新是必不可少的。

视频生成模型还需要模型的创新，也需要很多的 engineering，这件事情不是所有人都能做成的。OpenAI 也掌握了技术壁垒，所以即使现在有了 LLaMa 这样的开源模型，有很多人能做很多事情，但只有 OpenAI 能做 GPT-4。

要保持住先发优势行业领先地位，需要不断积累资源，包括用户资源、数据和 GPU 资源等等。技术的发展和资源的积累其实是一个滚动的过程，比如说积累更多用户也会有助于我们训练模型。技术团队也非常重要，要招募更多技术人才。

Interface 设计方面也很重要，最后很有可能一部分是技术，另一部分是设计与技术相结合，设计会为技术发展提供灵感，技术也可以支持设计，这个壁垒可能会越来越近。

开源社区可能没有足够的算力来训练新的视频模型，因为训练一个新视频模型需要非常多的机器。对于 Stable Diffusion，有人可能用 8 张 A100 就能从头开始学习，并得到不错的结果。但对于视频模型，用 8 张 A100 可能不够了，可能无法训练出一个好的模型。而且视频模型本身的问题还没得到解决，因此大家可能会遇到一些瓶颈。首先，模型性能可能不够好，其次，一些算法方面的问题也不够好。但是修改模型、架构，修改算法都需要从头开始转换模型，开源社区的人，甚至包括一些高校的人，没有这么多机器用来这些探索性工作。因此，开源社区会面临很大挑战，除非有一天像 POTX 或 TAI 这样的人有很多卡，愿意做慈善，开源一个模型。除了一些大公司开源模型外，普通开源社区很难进行探索性工作。

视频最终可能需要像训练 GPT 那样的大规模算力，现在大家还没使用那么多算力，一方面是因为视频模型还没达到像 GPT 那样的水平，另一方面是因为还有一些架构和技术上没解决的问题。这些问题改善后，未来会有新一代的视频模型达到类似 GPT 的规模。

AI 视频生成将迎来 GPT 时代？

热门头条新闻

其他动漫资讯

动漫世界网络中国站