视频生成模型:构建虚拟世界的模拟器

翻译了OpenAI关于Sora相关的技术报告:《Video generation models as world simulators | 视频生成模型:构建虚拟世界的模拟器》

这篇技术报告主要介绍了两方面内容:(1) OpenAI如何将各种类型的视觉数据转化为统一的表示形式,从而实现生成模型的大规模训练;(2) 对 Sora 模型能力和局限性的定性评价。

报告中没有包含模型和实施的详细信息。

Sora 属于扩散型 Transformer(diffusion transformer)。

我们知道,传统的 Transformer,主要有Encoder和Decoder,Encoder是将文本编码成 Token,从而可以将自然语言变成可以统一处理的数字或代码。而 Decoder 则是将 Token 反向解码成文本。

而 Sora 也是类似的思路,只不过它编码的结果不是Token,报告里面叫 Patches(中文暂译做补片),Encoder 将视频压缩为低维潜空间,再将其分解为 Patches。同样 Sora 也能从 Patches 反向解码成视频图像。(参考图一)

Sora 同时还是一种扩散模型,能将有噪声的图像块,基于 Prompt 还原出清晰的图像。(参考图二)

另外,报告中特地提到了:“我们的研究显示,扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。”

据说微软前一段时间给OpenAI搞了五千亿个视频用于训练。

原文:

https://openai.com/research/video-generation-models-as-world-simulators?continueFlag=2c6d842b1332338a289515b10241db55