QUICK REVIEW

[论文解读] Towards Accurate Generative Models of Video: A New Metric & Challenges

Thomas Unterthiner, Sjoerd van Steenkiste|arXiv (Cornell University)|Dec 3, 2018

Generative Adversarial Networks and Image Synthesis参考文献 50被引用 194

一句话总结

本文提出了弗雷chet视频距离（FVD），一种通过测量真实视频与生成视频特征分布差异来评估视频生成模型的新指标，同时考虑帧质量与时序连贯性。FVD在与人类判断的一致性方面优于传统指标如PSNR和SSIM，并在新基准数据集StarCraft 2 Videos（SCV）上得到验证，该数据集揭示了当前模型在长期记忆与关系推理能力方面的局限性。

ABSTRACT

Recent advances in deep generative models have lead to remarkable progress in synthesizing high quality images. Following their successful application in image processing and representation learning, an important next step is to consider videos. Learning generative models of video is a much harder task, requiring a model to capture the temporal dynamics of a scene, in addition to the visual presentation of objects. While recent attempts at formulating generative models of video have had some success, current progress is hampered by (1) the lack of qualitative metrics that consider visual quality, temporal coherence, and diversity of samples, and (2) the wide gap between purely synthetic video data sets and challenging real-world data sets in terms of complexity. To this extent we propose Fr\'{e}chet Video Distance (FVD), a new metric for generative models of video, and StarCraft 2 Videos (SCV), a benchmark of game play from custom starcraft 2 scenarios that challenge the current capabilities of generative models of video. We contribute a large-scale human study, which confirms that FVD correlates well with qualitative human judgment of generated videos, and provide initial benchmark results on SCV.

研究动机与目标

解决当前缺乏能够综合评估视觉质量、时序连贯性与样本多样性的视频生成评估指标的问题。
开发一种基于完整视频分布而非帧级对比的评估指标。
引入一个名为StarCraft 2 Videos（SCV）的基准数据集，用于测试视频生成模型在长期记忆与关系推理方面的能力。
通过大规模人类评估实验，验证FVD与人类判断的相关性。
利用FVD在多个数据集上对当前最先进模型进行全面评估。

提出的方法

提出弗雷chet视频距离（FVD）作为弗雷chet inception距离（FID）在视频领域的扩展，采用3D卷积神经网络从视频片段中提取时空特征。
计算真实与生成视频特征的多变量高斯分布之间的弗雷chet距离，以同时捕捉帧级质量与时序动态特性。
使用预训练的膨胀3D卷积网络（I3D）作为特征提取器，将视频片段编码为高维嵌入表示。
通过向真实视频中添加噪声并测量FVD变化，验证FVD对时序与帧级扰动的敏感性。
开展大规模人类评估实验，涵盖20,000个视频样本，涉及多个模型与数据集，以建立FVD与人类感知的相关性。
提出StarCraft 2 Videos（SCV）基准，包含4个自定义的StarCraft 2场景，要求模型具备关系推理与长时程记忆能力。

实验结果

研究问题

RQ1与PSNR和SSIM相比，FVD在多大程度上与人类对视频质量的判断保持一致？
RQ2FVD能否检测生成视频中的帧级与时序伪影？
RQ3当前最先进视频生成模型在复杂、长时程视频生成任务中失败的程度如何？
RQ4不同视频生成模型在包括BAIR、KTH与SCV在内的多样化基准上的表现如何？
RQ5在缺乏真实标签的无条件视频生成任务中，FVD能否作为可靠且客观的评估指标？

主要发现

FVD与人类判断呈显著负相关（r = -0.640，τ = -0.189），在与人类感知的一致性方面优于SSIM与PSNR。
通过噪声注入实验，FVD对帧级与时序扰动均表现出敏感性。
在SCV基准中，没有任何模型能成功生成RTwM场景的准确长期序列，表明长时程生成仍存在未解决的挑战。
在CMS场景中，尽管多数模型学习到了矿物碎片消失的总体模式，却难以正确建模其具体的消失顺序。
在BAIR与KTH数据集上，SVP-FP与SAVP等模型取得了最低的FVD分数，表明其在生成时序连贯且视觉准确的视频方面表现更优。
本研究在多个数据集上评估了超过3,000个模型，累计消耗计算资源超过100 GPU年，建立了全面的视频生成评估基准。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。