看懂这三个关键词,你就明白AI是怎么生成视频的

近两年,OpenAI的Sora 2、Google DeepMind的Veo 3、Runway的Gen-4相继发布,它们能生成几乎难以分辨真假的视频片段。最近,字节的Seedance 2.0生成视频的效果更是远胜它们,在国内和国外都异常火爆。那AI到底是怎么生成视频的?

答案就是:Latent Diffusion Transformers,通过将Diffusion Model(扩散模型)、Latent Space(潜在空间)和Transformers(变换器)精妙结合实现逼真的视觉效果。听起来很复杂?让我们一层层剥开它。

第一层:扩散模型——从噪点还原图像想象一下,你有一张照片,往上面随机撒一层像素点(噪点),再撒一层,再撒一层……最终这张照片会变成电视机没信号时的"雪花屏"。扩散模型的神奇之处,就是学会了反向操作:它被训练去识别"各种程度的噪点照片"长什么样,然后学会一步步把雪花屏"清理"回清晰的图像。但你不想要随机图像,你想要"独角兽吃意大利面"。所以扩散模型会配合另一个模型(比如大语言模型LLM),后者负责理解你的文字描述,并在清理过程中不断"引导"扩散模型,让它生成的图像符合你的要求。生成视频呢? 就是对一连串的图像帧(视频的每一帧)做同样的清理工作。

第二层:潜在扩散——提高效率的压缩术问题来了:处理视频的每一帧包含数百万个像素,计算量巨大。潜在扩散模型的巧妙之处在于:它不直接处理原始像素,而是先把视频帧压缩成数学编码,将文字提示转换成语义变量,然后一起放到"潜在空间"中,就像把一个大文件压缩成zip包。随后在这个压缩空间里进行清理工作,最后再把结果"解压"回你能看到的视频。这样效率大大提高,能耗也大幅降低。

第三层:加入Transformer——让视频保持连贯还有最后一个难题:如何确保生成的视频前后一致?你不希望独角兽的角在第5帧突然消失,又在第10帧突然变色。这就是Transformer的用武之地。Transformer擅长处理长序列数据(比如长文本),能理解前后关系。

OpenAI的Sora采用的方法是:把视频在空间和时间维度上都切成小块(像切蛋糕一样切成小立方体),然后让Transformer在生成过程中维持这些块之间的一致性。这样,物体不会凭空消失或变形,光影也能保持连贯。把它们串起来:完整的生成流程把上面三层串起来,就是完整的AI视频生成流程:输入:你的文字描述压缩:在潜在空间中生成随机噪声,并结合文字提示的语义编码清理:扩散模型在LLM的引导下,逐步把噪声变成有意义的图像序列连贯:Transformer确保视频帧之间保持一致输出:解码还原成你能观看的视频***AI生成视频的核心技术就是: 扩散模型(去噪还原)+ 潜在空间(高效压缩)+ Transformer(保持连贯)。

这三个技术的结合,就是近两年AI视频大爆发的秘密武器!而随着训练数据的多样性大大增加,视频的质量也就越发逼真。随着AI生成视频的技术越发成熟和上手的门槛越来越低,我们每个人,都能从单纯的现实记录者,变成潜在的现实创造者。我们不再需要为繁琐的剪辑、调色或特效制作而烦恼,我们需要回归到创作的本源:想法、品味和叙事能力。
上一篇: 当AI模型价格腰斩,下场机会在哪里?