第一个视频一致性模型(VideoLCM)也来了!

我们之前介绍过图像的LCM(访问微博正文微博正文),现在视频的LCM也开始卷起来了。

它只需 4 个采样步骤即可生成视频:生成 16 帧(分辨率为 256x256)仅需 10 秒!虽然还不是实时的(像图像LCM那样),但已经接近了!

论文:arxiv.org/abs/2312.09109
VideoLCM: Video Latent Consistency Model(视频潜在一致性模型)

论文摘要:
一致性模型在高效图像生成方面表现出了强大的能力,并允许在几个采样步骤内进行合成,从而减轻了扩散模型中的高计算成本。然而,在更具挑战性和资源消耗的视频生成中,一致性模型的探索仍然较少。

在本报告中,我们提出了 VideoLCM 框架来填补这一空白,该框架利用图像生成的一致性模型的概念,以最少的步骤有效地合成视频,同时保持高质量。VideoLCM 基于现有的潜在视频扩散模型,并结合一致性蒸馏技术来训练潜在一致性模型。

实验结果揭示了我们的 VideoLCM 在计算效率、保真度和时间一致性方面的有效性。值得注意的是,VideoLCM 只需四个采样步骤即可实现高保真且流畅的视频合成,展示了实时合成的潜力。我们希望VideoLCM能够作为后续研究的简单而有效的基线。源代码和模型将公开。