看懂这三个关键词，你就明白AI是怎么生成视频的

近两年，OpenAI的Sora 2、Google DeepMind的Veo 3、Runway的Gen-4相继发布，它们能生成几乎难以分辨真假的视频片段。最近，字节的Seedance 2.0生成视频的效果更是远胜它们，在国内和国外都异常火爆。那AI到底是怎么生成视频的？

答案就是：Latent Diffusion Transformers，通过将Diffusion Model(扩散模型)、Latent Space(潜在空间)和Transformers(变换器)精妙结合实现逼真的视觉效果。听起来很复杂？让我们一层层剥开它。

第一层：扩散模型——从噪点还原图像想象一下，你有一张照片，往上面随机撒一层像素点（噪点），再撒一层，再撒一层……最终这张照片会变成电视机没信号时的"雪花屏"。扩散模型的神奇之处，就是学会了反向操作：它被训练去识别"各种程度的噪点照片"长什么样，然后学会一步步把雪花屏"清理"回清晰的图像。但你不想要随机图像，你想要"独角兽吃意大利面"。所以扩散模型会配合另一个模型（比如大语言模型LLM），后者负责理解你的文字描述，并在清理过程中不断"引导"扩散模型，让它生成的图像符合你的要求。生成视频呢？就是对一连串的图像帧（视频的每一帧）做同样的清理工作。

第二层：潜在扩散——提高效率的压缩术问题来了：处理视频的每一帧包含数百万个像素，计算量巨大。潜在扩散模型的巧妙之处在于：它不直接处理原始像素，而是先把视频帧压缩成数学编码，将文字提示转换成语义变量，然后一起放到"潜在空间"中，就像把一个大文件压缩成zip包。随后在这个压缩空间里进行清理工作，最后再把结果"解压"回你能看到的视频。这样效率大大提高，能耗也大幅降低。

第三层：加入Transformer——让视频保持连贯还有最后一个难题：如何确保生成的视频前后一致？你不希望独角兽的角在第5帧突然消失，又在第10帧突然变色。这就是Transformer的用武之地。Transformer擅长处理长序列数据（比如长文本），能理解前后关系。

OpenAI的Sora采用的方法是：把视频在空间和时间维度上都切成小块（像切蛋糕一样切成小立方体），然后让Transformer在生成过程中维持这些块之间的一致性。这样，物体不会凭空消失或变形，光影也能保持连贯。把它们串起来：完整的生成流程把上面三层串起来，就是完整的AI视频生成流程：输入：你的文字描述压缩：在潜在空间中生成随机噪声，并结合文字提示的语义编码清理：扩散模型在LLM的引导下，逐步把噪声变成有意义的图像序列连贯：Transformer确保视频帧之间保持一致输出：解码还原成你能观看的视频***AI生成视频的核心技术就是：扩散模型（去噪还原）+ 潜在空间（高效压缩）+ Transformer（保持连贯）。

这三个技术的结合，就是近两年AI视频大爆发的秘密武器！而随着训练数据的多样性大大增加，视频的质量也就越发逼真。随着AI生成视频的技术越发成熟和上手的门槛越来越低，我们每个人，都能从单纯的现实记录者，变成潜在的现实创造者。我们不再需要为繁琐的剪辑、调色或特效制作而烦恼，我们需要回归到创作的本源：想法、品味和叙事能力。