导航：首页 > IT资讯 >

谷歌 10 秒视频生成模型 VideoPoet 破世界记录！LLM 终结扩散模型，效果碾压顶流 Gen-2

发表于：2025-01-20 作者：千家信息网编辑

千家信息网最后更新 2025年01月20日，谷歌全新视频生成模型 VideoPoet 再次引领世界！十秒超长视频生成效果碾压 Gen-2，还可进行音频生成，风格转化。AI 视频生成，或许就是 2024 年下一个最前沿（juan）的领域。回看过去

千家信息网最后更新 2025年01月20日谷歌 10 秒视频生成模型 VideoPoet 破世界记录！LLM 终结扩散模型，效果碾压顶流 Gen-2

谷歌全新视频生成模型 VideoPoet 再次引领世界！十秒超长视频生成效果碾压 Gen-2，还可进行音频生成，风格转化。AI 视频生成，或许就是 2024 年下一个最前沿（juan）的领域。

回看过去几个月，RunWay 的 Gen-2、Pika Lab 的 Pika 1.0，国内大厂等大波视频生成模型纷纷涌现，不断迭代升级。

这不，RunWay 一大早就宣布 Gen-2 支持文本转语音的功能了，可以为视频创建画外音。

当然，谷歌在视频生成上也不甘落后，先是与斯坦福李飞飞团队共同发布了 W.A.L.T，用 Transformer 生成的逼真视频引来大波关注。

今天，谷歌团队又发布了一个全新的视频生成模型 VideoPoet，而且无需特定数据便可生成视频。

论文地址：https://blog.research.google/ 2023/12 / videopoet-large-language-model-for-zero.html

最令人惊叹的是，VideoPoet 一次能够生成 10 秒超长，且连贯大动作视频，完全碾压 Gen-2 仅有小幅动作的视频生成。

另外，与领先模型不同的是，VideoPoet 并非基于扩散模型，而是多模态大模型，便可拥有 T2V、V2A 等能力，或将成为未来视频生成的主流。

网友看后纷纷「震惊」刷屏。

不如，接下来可以先看一波体验。

文字转视频

在文本到视频的转换中，生成的视频长度是可变的，并且能够根据文本内容展现出多种动作和风格。

比如，熊猫打牌：

Two pandas playing cards

南瓜爆炸：

A pumpkin exploding, slow motion

宇航员策马奔驰：

An astronaut riding a galloping horse

图像转视频

VideoPoet 还可以根据给定的提示，将输入的图像转换成动画。

左：一艘船在波涛汹涌的海面上航行，周围是雷电交加的景象，以动态油画风格呈现

中：飞过充满闪烁星星的星云

右：一位拄着手杖的旅行者站在悬崖边，凝视着风中翻腾的海雾

视频风格化

对于视频风格化，VideoPoet 先预测光流和深度信息，然后再将额外的文本输入到模型。

左：袋熊戴着墨镜，在阳光明媚的海滩上拿着沙滩球

中：泰迪熊在清澈的冰面上滑冰

右：一只金属狮子在熔炉的光芒下咆哮

从左到右：逼真，数字艺术，铅笔艺术，水墨，双重曝光，360 度全景

视频转音频

VideoPoet 还能生成音频。

如下，首先从模型中生成 2 秒钟的动画片段，然后在没有任何文本引导的情况下尝试预测音频。这样就能从一个模型中生成视频和音频。

通常情况下，VideoPoet 以纵向的方式生成视频，以便与短片视频的输出相一致。

谷歌还专门做了一部由 VideoPoet 生成的许多短片组成的简短电影。

具体文本比编排上，研究人员要求 Bard 先写一个关于一只旅行浣熊的短篇故事，并附带场景分解和提示列表。然后，为每个提示生成视频片段，并将所有生成的片段拼接在一起，制作出下面的最终视频。

视频讲故事

通过随时间变化的提示，可以创造视觉上的故事叙述。

输入：一个由水构成的行走的人

扩展：一个由水构成的行走的人。背景中有闪电，同时从这个人身上散发出紫色的烟雾

输入：两只浣熊骑着摩托车在松树环绕的山路上行驶，8k

扩展：两只浣熊骑着摩托车。流星雨从浣熊身后坠落，撞击地面并引发爆炸

LLM 秒变视频生成器

当前，Gen-2、Pika 1.0 视屏生成的表现足以惊人，但是遗憾的是，无法在连贯大幅动作的视频生成上表现惊艳。

通常，它们在产生较大动作时，视频会出现明显的伪影。

对此，谷歌研究人员提出了 VideoPoet，能够执行包括文本到视频、图像到视频、视频风格化、视频修复 / 扩展和视频到音频等多样的视频生成任务。

相比起其他模型，谷歌的方法是将多种视频生成功能无缝集成到单一的大语言模型中，而不依赖针对各个任务分别训练的专用组件。

具体来说，VideoPoet 主要包含以下几个组件：

预训练的 MAGVIT V2 视频 tokenizer 和 SoundStream 音频 tokenizer，能将不同长度的图像、视频和音频剪辑转换成统一词汇表中的离散代码序列。这些代码与文本型语言模型兼容，便于与文本等其他模态进行结合。
自回归语言模型可在视频、图像、音频和文本之间进行跨模态学习，并以自回归方式预测序列中下一个视频或音频 token。
在大语言模型训练框架中引入了多种多模态生成学习目标，包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复 / 扩展、视频风格化和视频到音频等。此外，这些任务可以相互结合，实现额外的零样本功能（例如，文本到音频）。

VideoPoet 能够在各种以视频为中心的输入和输出上进行多任务处理。其中，LLM 可选择将文本作为输入，来指导文本到视频、图像到视频、视频到音频、风格化和扩图任务的生成

使用 LLM 进行训练的一个关键优势是，可以重用现有 LLM 训练基础设施中引入的许多可扩展的效率改进。

不过，LLM 是在离散 token 上运行的，这可能会给视频生成带来挑战。

幸运的是，视频和音频 tokenizer，可以将视频和音频剪辑编码为离散 token 序列（即整数索引），并可以将其转换回原始表示。

VideoPoet 训练一个自回归语言模型，通过使用多个 tokenizer（用于视频和图像的 MAGVIT V2，用于音频的 SoundStream）来跨视频、图像、音频和文本模态进行学习。

一旦模型根据上下文生成了 token，就可以使用 tokenizer 解码器将这些 token 转换回可查看的表示形式。

VideoPoet 任务设计：不同模态通过 tokenizer 编码器和解码器与 token 相互转换。每个模态周围都有边界 token，任务 token 表示要执行的任务类型