比肩Gen-2,全新开源文生视频模型

专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

著名开源平台Stability.ai在官网宣布,推出全新文生视频的扩散模型Stable Video Diffusion,已开源了该项目并公布了论文。

据悉,用户通过文本或图像就能生成高精准,14帧和25帧的短视频。目前,Stable Video Diffusion处于预览版状态,仅用于学术研究,未来会开放商业权限。

在FVD的测试数据显示,,Stable Video Diffusion的0样本效果明显超过目前的主流模型。在人类主观评估上, 无论是图像质量还是视频运动的连贯性,也显著优于Gen-2、Pika Labs等商业文生视频模型。

在多视角渲染方面,在PSNR、LPIPS等客观指标评测,该技术生成的视频效果也超过当前最优的方法。

github地址:https://github.com/Stability-AI/generative-models

huggingface地址:https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

论文地址:https://stability.ai/s/stable_video_diffusion.pdf

超大训练数据集

Stable Video Diffusion能生成高质量视频、连贯运动以及高精准还原文本的描述,与其庞大的数据训练集有很大关系。

研究人员使用了一个包含5.8亿个视频剪辑的巨大数据集,来训练AI模型。为了筛选高质量数据,首先检测每个视频中的不同镜头和转场,评估每个镜头中的运动信息,然后为每个镜头自动生成描述文字,每个镜头的美学效果等。

具体方法如下:

级联切换检测:采用级联的切换检测方法识别视频中的场景转场。

运动信息提取:基于稠密光流估计每个视频片段的运动信息。

文本描述生成:为每个视频片段自动生成三种形式的文字描述。

质量评估:使用CLIP等方法评估每个片段的视觉质量、文本匹配度等。

过滤去噪:根据上述评估指标过滤掉质量较差的视频片段。

经过层层筛选,最后保留了一个约1.5亿视频片段的超高质量数据集,为后续的模型训练奠定重要基础。

多阶段训练

在模型训练方面也与传统方法不同,Stable Video Diffusion采用了一个三层训练架构。

第一阶段是图像预训练,初始化一个图像生成模型;

第二阶段是在构建的大规模视频数据集上进行视频预训练,学习运动表征;

第三阶段是在一个小规模的高质量视频数据集上进行微调。

研究人员表示,这种分阶段的训练策略可以让模型更好地获取生成高保真视频所需要的各个要素。同时在模型框架上也进行了大量创新,例如,设计了专门的时间卷积和注意力结构,明显提高了视频时序信息的捕捉和学习能力。

多任务微调

在训练好模型后,研究人员对预训练模型进一步微调,可用于多模式的视频生成任务。

文本描述生成视频: 文本提示可以直接作为条件生成视频。

图像生成视频:可以使用一张图像作为条件,生成这张图像的后续运动镜头。

多视角渲染:可以生成同一个物体的多个前后左右观察角度的视频镜头,这样可以生成3D 效果视频。

插入视频帧:可以将两张图像作为条件,生成插入在它们中间的额外镜头,实现视频帧率的提升。

Stability.ai表示,目前该模型处于研究状态,未来会对功能、模型进行持续优化。在商业化落地时,会进一步提升其能力,尤其是会延长生成视频的时长。

本文素材来源Stability.ai官网、论文,如有侵权请联系删除

END

《遇见未来 发现AI视觉艺术》故事接龙AI短片大赛