视频一致性模型（VideoLCM）

2024-04-03

AIGC

546 词

第一个视频一致性模型（VideoLCM）也来了！

我们之前介绍过图像的LCM（访问微博正文，微博正文），现在视频的LCM也开始卷起来了。

它只需 4 个采样步骤即可生成视频：生成 16 帧（分辨率为 256x256）仅需 10 秒！虽然还不是实时的（像图像LCM那样），但已经接近了！

论文：arxiv.org/abs/2312.09109
VideoLCM: Video Latent Consistency Model（视频潜在一致性模型）

论文摘要：
一致性模型在高效图像生成方面表现出了强大的能力，并允许在几个采样步骤内进行合成，从而减轻了扩散模型中的高计算成本。然而，在更具挑战性和资源消耗的视频生成中，一致性模型的探索仍然较少。

在本报告中，我们提出了 VideoLCM 框架来填补这一空白，该框架利用图像生成的一致性模型的概念，以最少的步骤有效地合成视频，同时保持高质量。VideoLCM 基于现有的潜在视频扩散模型，并结合一致性蒸馏技术来训练潜在一致性模型。

实验结果揭示了我们的 VideoLCM 在计算效率、保真度和时间一致性方面的有效性。值得注意的是，VideoLCM 只需四个采样步骤即可实现高保真且流畅的视频合成，展示了实时合成的潜力。我们希望VideoLCM能够作为后续研究的简单而有效的基线。源代码和模型将公开。