开源版Sara架构视频生成模型open sofa 1.0介绍

豆抖大人2025-11-17 08:11:14

没等来Sara的体验，却等来了开源版Sara。三月份最大惊喜来临，class VI团队开源了全球首个类Sara架构的视频生成模型open sofa 1.0，包括整个训练流程数据以及所有训练细节和模型权重。具体来看，open NORA1.0采用了the fusion transformer gip架构，并在此基础上引入时间注意力层，扩展到视频数据上。模型包括预训练的V文本编码器和STTT模型。训练阶段先使用V编码器压缩视频数据，然后在潜在空间中与文本嵌入一起训练STDT扩散模型。推理阶段则是从V潜在空间中采用高斯噪声，然后与提示词嵌入输入到STTT中，最后解码得到视频。open ENSRA的复现方案分为三个阶段，分别是大规模图像预训练、大规模视频训练以及高质量视频数据。每个阶段都基于前一阶段的重型数据训练以及所需的硬件。团队表示，他们使用64块H800进行训练，23阶段训练总时长为4728GPU hours。整个训练方案把open swr a复现成本压缩在1万美元左右。不过由于目前版本仅使用了400K的训练数据模型，生成的视频质量以及文本理解能力都有待提升。
### 探索开源版Sara架构视频生成模型open sofa 1.0攻略

在当今数字化的时代，视频生成模型成为了热门话题。开源版Sara架构的视频生成模型open sofa 1.0备受关注。

首先，了解其独特架构是关键。open sofa 1.0采用了先进的the fusion transformer gip架构，并引入时间注意力层，为视频数据处理带来新突破。

训练流程也不容忽视。它包括预训练的V文本编码器和STTT模型。训练阶段，V编码器压缩视频数据，然后在潜在空间与文本嵌入共同训练STDT扩散模型。

推理阶段同样重要。从V潜在空间采用高斯噪声，与提示词嵌入输入到STTT中，最终解码得到视频。

复现方案分三个阶段，大规模图像预训练、大规模视频训练以及高质量视频数据。每个阶段基于前一阶段重型数据训练及所需硬件。

团队使用64块H800进行训练，23阶段总时长4728GPU hours，复现成本约1万美元。

虽然目前版本仅用400K训练数据模型，视频质量和文本理解能力有待提升，但它仍为我们打开了视频生成的新大门，值得深入探索和研究。
开源版Sara,视频生成模型,open sofa 1.0,训练流程,模型权重
[Q]：开源版Sara架构的视频生成模型叫什么？
[A]：open sofa 1.0
[Q]：open NORA1.0采用了什么架构？
[A]：the fusion transformer gip架构
[Q]：模型包括哪些部分？
[A]：预训练的V文本编码器和STTT模型
[Q]：训练阶段是怎样的？
[A]：先使用V编码器压缩视频数据，然后在潜在空间中与文本嵌入一起训练STDT扩散模型
[Q]：推理阶段如何进行？
[A]：从V潜在空间中采用高斯噪声，然后与提示词嵌入输入到STTT中，最后解码得到视频
[Q]：open ENSRA的复现方案分几个阶段？
[A]：三个阶段，分别是大规模图像预训练、大规模视频训练以及高质量视频数据
[Q]：团队训练使用了什么硬件？
[A]：64块H800
[Q]：目前版本存在什么问题？
[A]：仅使用了400K的训练数据模型，生成的视频质量以及文本理解能力都有待提升