QUICK REVIEW

[论文解读] Generating Long Videos of Dynamic Scenes

Tim Brooks, Janne Hellsten|arXiv (Cornell University)|Jun 7, 2022

Advanced Vision and Imaging被引用 25

一句话总结

提出一个分层生成器，优先考虑时间轴，以在长视频中实现更真实的运动和随时间增加的新内容，进行两阶段训练，分别在长低分辨率序列和短高分辨率序列上训练。

ABSTRACT

We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real environments, such as plausible dynamics and object persistence. A common failure case is for content to never change due to over-reliance on inductive biases to provide temporal consistency, such as a single latent code that dictates content for the entire video. On the other extreme, without long-term consistency, generated videos may morph unrealistically between different scenes. To address these limitations, we prioritize the time axis by redesigning the temporal latent representation and learning long-term consistency from data by training on longer videos. To this end, we leverage a two-phase training strategy, where we separately train using longer videos at a low resolution and shorter videos at a high resolution. To evaluate the capabilities of our model, we introduce two new benchmark datasets with explicit focus on long-term temporal dynamics.

研究动机与目标

激励在视频生成中实现长期一致性与内容涌现的需求。
开发一个生成器架构，分别建模长期时间动态和高分辨率细节。
在低分辨率下对长视频进行训练，以学习长程依赖，同时保持可行的计算量。
引入强调长期运动、视角变化和随时间出现的新内容的数据集。
提供用于长时视频真实感与动态性评估的基准和分析。

提出的方法

引入一个两阶段的分层生成器，包含一个低分辨率时间生成器和一个独立的超分辨率网络。
使用由一组长程低通滤波器丰富的时序潜在表示来建模长期动力学。
在长序列（128帧）、64x36 分辨率上训练低分辨率生成器，以学习长期一致性。
在低分辨率帧的短序列上训练超分辨率网络，以产生 256x144（或更高）输出。
在低分辨率生成器与超分辨率网络之间使用模块化 RGB 瓶颈，便于灵活试验。
使用 FVD 和定性评估与 StyleGAN-V、MoCoGAN-HD、TATS 和 DIGAN 进行比较，并分析随时间的颜色变化动态。

实验结果

研究问题

RQ1视频生成器是否能够在引入新内容的同时学习并保持长期时间一致性？
RQ2通过长程时间潜在表示优先考虑时间轴，是否比逐帧或短片段训练提高长视频的真实感？
RQ3在低分辨率下进行长序列训练的有效策略以及用于长期视频生成的架构设计（时序上采样、时空卷积）是什么？
RQ4新提出的具有长期动力学的数据集如何挑战并基准化视频生成模型？
RQ5相对于基线，所提方法在长期指标（FVD）和定性评估上的表现如何？

主要发现

所提出的模型能够生成具有真实运动、相机视角变化以及随时间出现的新内容的视频。
在低分辨率下对长视频进行训练，并且有一个独立的超分辨率阶段，使建模长期动力学成为可能，同时保持计算量在可行范围。
在具有长期动力学的数据集上，模型获得相对于若干基线的有利的 Fréchet 视频距离（FVD）分数，并且定性用户研究更偏好所提方法。
鉴别器增强和带有时序低通丰富潜在表示对稳定训练和实现长程连贯性至关重要。
消融实验表明，更长的训练序列和适当的时序低通特征可以提升长视频的真实感。
新数据集（山地自行车、骑马）展示了长期内容涌现和动态摄像机运动，作为基准数据集。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。