OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定

--------------2024年2月17日更新----------------- 更新了OpenAI Sora与Runway Gen2的对比视频，参考：https://www.douyin.com/user/self?modal_id=7336215668678757695

OpenAI宣布发布全新的Diffusion大模型Sora，这是一个可以生成最长60秒视频的视频生成大模型，最大的特点是可以生成非常逼真的电影画面版的视频。

OpenAI的视频生成模型Sora模型介绍和特点

Sora是OpenAI开发的一款先进AI模型，它能根据文本指令创造出高质量、逼真的视频，不仅拓宽了创作的边界，还融合了安全措施和社区的反馈。它主要的技术特点如下：

利用扩散模型和Transformer架构，Sora具备了从文本、静态图片或扩展已有视频中生成视频的能力，也就是说Sora可以基于文本或者图片或者视频来生成或者扩展。因此，OpenAI的Sora是一个可以接受任意模态输入并生成视频的模型。
此模型被训练以理解和模拟物理世界的动态，助力于解决现实世界互动问题的挑战。因此，OpenAI的Sora可以生成更加逼真的视频。
Sora能制作长达一分钟的视频，不仅视觉质量上乘，而且能精确响应用户的指令，内容涵盖从都市风光到动漫人物等多种场景。时间上更长意味着视频更加连贯。

OpenAI的Sora模型的实际效果

官方公布了OpenAI Sora的实际测试结果，非常令人惊叹。OpenAI的Sora生成的视频合集地址：https://www.douyin.com/user/self?modal_id=7336019234973109515

实例1：在东京街头行走

下图是视频截图，

实例2：淘金热期间加利福尼亚州的历史录像

下面这个视频的Prompt是“Prompt: Historical footage of California during the gold rush.”，就这样简单一句话生成的视频非常具有年代感，似乎是电影纪录片。

实例3：飞奔的SUV

输入的Prompt：The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

视频截图：

这是生成一个跟随行驶SUV的镜头，除了运动、真实以外，SUV的细节也非常好。Prompt描述的是黑色车顶的行李架的复古SUV，被松树包围的陡峭土路，都十分准确。

OpenAI Sora模型技术报告总结

本次OpenAI还公布了Sora模型的一些技术细节，相比较GPT-4，这次公布了稍微多一点点的内容。

首先，OpenAI是在在不同持续时间、分辨率和宽高比的视频和图像上联合训练conditional diffusion models。OpenAI利用了一种在视频和图像潜在代码的时空patches上操作的transformer架构。最大的模型就是Sora，能够生成一分钟的高保真视频。OpenAI认为，扩大视频生成模型的规模是朝向构建物理世界的通用目的模拟器的有希望的路径。

OpenAI在技术报告中说，先前的工作已经使用了各种方法对视频数据进行生成式的建模，但是这些工作通常专注于视觉数据的狭窄类别，较短的视频，或者固定大小的视频。而OpenAI的Sora是视觉数据的通才模型——它可以生成持续时间、宽高比和分辨率不同的视频和图像，最长可达一分钟的高清视频。

OpenAI认为，既然大语言模型可以在更多数据更大规模上取得如此好的效果，那么视频生成应该也是类似。因此，与大语言模型将文本、代码、数学等不同数据转成tokens的思路类似，OpenAI引用了视觉patches概念，并且发现视频数据转成patches也有非常好的效果。

上图展示了更高层次的Sora方法的原理，通过首先将视频压缩到低维的潜在空间，然后将这些表示分解为时空patches，OpenAI Sora实现了视频到patches的转换。

也就是说，通过将不同种类的视频压缩转成patches，然后加入decode网络，将patches还原成视频。OpenAI的Sora实现了类似大语言模型的训练过程，进而获得了如此逼真的视频生成能力。

有了patches之后，OpenAI Sora与原有视频模型最大的不同是直接在原始尺寸上的视频进行训练。OpenAI发现直接在视频的原生尺寸上进行训练能带来多重好处。Sora能够生成各种格式的视频，从宽屏到竖屏及其间的所有格式，直接为不同设备生成其原生宽高比的内容。这种灵活性还允许Sora在生成全分辨率内容之前，先以较小尺寸快速制作原型。

此外，直接在视频的原生宽高比上训练能显著改善视频的构图和布局。通过比较Sora生成的视频和一个将训练视频全部裁剪为正方形的模型版本，OpenAI发现后者有时会产生主体只部分出现在画面中的视频，而Sora生成的视频在构图上有所改进。

Sora能够生成多种格式的视频，从宽屏1920x1080p到竖屏1080x1920，以及介于两者之间的所有格式。这使得Sora能够直接为不同设备生成其原生宽高比的内容。

OpenAI Sora当前的情况

虽然OpenAI官方宣布了Sora模型，但是目前并没有开放给大众使用。当前，OpenAI确认已经有视觉艺术家、设计师、电影制作人及红队成员（专注于安全性测试的专家）已获得使用Sora的权限，目的是为了收集反馈并评估其潜在风险。

同时，OpenAI通过早期共享其进展与社区合作并征集反馈，致力于提升AI的安全性和实用性。

并且，OpenAI也做了预防措施，包括与领域专家合作进行对抗性测试、开发用于识别误导内容的工具，以及借鉴DALL·E 3中已经存在的安全措施确保这个模型不被错误使用。

OpenAI的Sora模型技术报告地址：https://openai.com/research/video-generation-models-as-world-simulators

OpenAI的Sora官方介绍地址：https://openai.com/sora

OpenAI的Sora生成的视频合集地址：https://www.douyin.com/user/self?modal_id=7336019234973109515