谷歌新视频AI video poet：强大功能与独特魅力

豆抖大人2025-12-02 12:31:56

性感鸡哥在线举哑铃，蒙娜丽莎变身表情包打哈欠，女神形象全无。
谷歌技术团队的新视频AI video poet可以总结为很能生视频，每个视频都长得很好看，关键还能生长视频。
这就算了，人家还可以给自己整容，并且具有零样本视频生成的能力。
打个比方，这个AI她没接触过，但不妨碍她通过自己的理解，把认知中的鸡和举哑铃的动作结合起来。这就是零样本大型语言模型的魅力。
并且谷歌丧心病狂的把文本到视频，图像到视频，上传视频，使用文本修改视频风格的风格化能力。
比如将左边的大雄变成戴着墨镜的戴雄，在阳光明媚的海滩上拿着沙滩球，还是高清化的，而且风格多到让人家眼花缭乱，视频修复和填充也被集成了，注意看画面里拓展出来的栏杆，也会随着下面的栏杆做符合物理规律的摆动，还有格子，家里的庭院长出的树会随风摆动，甚至这个依然还能根据画面动作自行配乐，实现视频到音频的闭环。
但你以为这就完了当这些能力全部无缝集成到这个语言模型中，完成了能力的高度闭环，衍生出了一堆新技能。
比起那些靠插件组合而成的大模型，video poet生成视频的不仅解决了离散式大模型在生成大范围运动时存在一些限制，要么视频的运动很小，要么在生成较大运动时会出现明显的回影。
Video poets允许使用者对视频进行特效处理。只需要拖个框打入文字，男人就从冲浪变成征服鲨鱼了。或者让粉色小熊成为玩具火车旅客。
当你没灵感时，可以交给AI去发散性生成各种各样的画面。比如视频中左边会提示AI生成的，中间三个则由AI自己联想。
而当你有想法了，又可以继续叫它使用同个主角、同个场景生成你想要的。比如冒着黑烟的机器人灯光闪烁。
因为video pod在大模型上引入了中间帧的概念，所以AI可以在生成视频的时候，以视频最后一帧为起始帧，套娃生成下一帧，且内容和前面的画面高度一致。比如这里让宇航员跳舞，然后背后打烟花。
这就允许用户未来在使用AI作为生产力工具时，更多的集中于灵感。从以前的和脑子里的空白对抗变成了和输入框里的空白对抗。
就算是运镜同个场景下缩小移动变焦向左平移图形拍摄、云台拍摄、FPV无人机拍摄，这就让专业拍摄师傅们尴尬了。那我以后干脆随便录段视频，只要够高清，回去交给AI算了。
至于video post的工作原理，它使用多个分词器，其中mac FITV2用于视频和图像，sounds stream用于音频，有点像人的不同脑子来将视频、图像和音频编码为离散的标记序列，并可以将这些标记序列转换回原始表示形式。
简单点说，video poll在工作时会先将各种素材、视频、图像、音频分解成一个个元素，也就是离散的标记序列，然后通过他的大脑进行学习和转换，最后再将这些元素组合成完整的作品。
视频、图像、音频和文本之间的转换有点像人类联想的过程，比如说大象，我们脑子里会出现大象，就是不知道在物理意义上表现如何。比如让大象和老鼠站在天平两端，谷歌这个AI会认为天平将向哪里倾斜。
更多详细内容，小伙伴们可以移步AI科技评论文章研读。
### 利用谷歌AI，开启视频创作新时代
在当今数字化时代，视频创作变得越来越重要。谷歌推出的新视频AI video poet为我们带来了全新的创作体验。
它具有强大的视频生成能力，能快速产出高质量视频。零样本生成功能更是一绝，即便没有相关样本，也能创造出独特视频。
特效处理方面，操作简单，只需拖框打字，就能实现惊人效果。比如让普通场景瞬间变得奇幻。
对于创作者来说，这是极大的助力。没灵感时，交给AI发散思维；有想法时，精准生成所需内容。
无论是专业人士还是普通爱好者，都能借助它提升创作效率，创作出令人惊艳的视频作品，开启视频创作的新篇章。
谷歌,video poet,AI,视频生成,零样本,特效处理
[Q]：video poet的零样本视频生成能力是什么意思？
[A]：指AI无需接触相关样本，就能凭借自身理解结合认知元素生成视频。
[Q]：它能进行哪些风格化处理？
[A]：可实现文本到视频、图像到视频、文本修改视频风格等，风格多样且高清。
[Q]：如何对视频进行特效处理？
[A]：拖个框打入文字即可，比如让人物动作和场景快速变化。
[Q]：没灵感时怎么用video poet？
[A]：交给AI发散性生成各种画面，它会给出多样创意。
[Q]：有想法时如何操作？
[A]：叫它使用同个主角、同个场景生成想要的内容。
[Q]：video poet在生成大范围运动时有优势吗？
[A]：有，它解决了离散式大模型在这方面的限制，运动自然。
[Q]：它能实现视频到音频的闭环吗？
[A]：能，还能根据画面动作自行配乐。
[Q]：video post的工作原理是怎样的？
[A]：使用多个分词器，分解素材成标记序列，经学习转换再组合。