QUICK REVIEW

[论文解读] SinFusion: Training Diffusion Models on a Single Image or Video

Yaniv Nikankin, Niv Haim|arXiv (Cornell University)|Nov 21, 2022

Generative Adversarial Networks and Image Synthesis被引用 20

一句话总结

SinFusion 在单张图像或单个视频上训练扩散模型，以生成多样样本并实现对真实输入的視頻外推、上采样及编辑，所需帧极少。

ABSTRACT

Diffusion models exhibited tremendous progress in image and video generation, exceeding GANs in quality and diversity. However, they are usually trained on very large datasets and are not naturally adapted to manipulate a given input image or video. In this paper we show how this can be resolved by training a diffusion model on a single input image or video. Our image/video-specific diffusion model (SinFusion) learns the appearance and dynamics of the single image or video, while utilizing the conditioning capabilities of diffusion models. It can solve a wide array of image/video-specific manipulation tasks. In particular, our model can learn from few frames the motion and dynamics of a single input video. It can then generate diverse new video samples of the same dynamic scene, extrapolate short videos into long ones (both forward and backward in time) and perform video upsampling. Most of these tasks are not realizable by current video-specific generation methods.

研究动机与目标

促使在单个输入图像或视频上启用扩散模型能力，而非使用大规模数据集。
学习单个视频的外观与动态，以实现操作和编辑任务。
实现从单一输入实现多样化生成、时间外推（正向与时间反向）与时间上采样。
提出适用于单图像/视频数据的 DDPM 的架构和训练修改。

提出的方法

将 DDPM 主干改为全卷积结构，并通过移除全局注意力以及下采样/上采样层来减少感受野增长。
在单张图像的较大裁剪上进行训练，以在避免对整张图像过拟合的同时保留全局结构。
将 ResNet 块替换为 ConvNext 块，以在受限感受野下模拟注意力般的能力。
在单图像 DDPM 的训练中预测干净图像 x0（而不是噪声），以提升质量和速度。
对于视频，组合三个单图像 DDPM：Predictor（以前帧为条件）、Projector（纠正伪影）和 Interpolator（时序上采样）。
对帧差进行条件化，并对帧间距 k 采用渐进式训练（课程学习）以提高预测质量。
在输入视频上分别训练三种模型，并在推断时自回归地将它们组合以生成多样化、长度更长的视频。

实验结果

研究问题

RQ1是否可以在单张图像或单个视频上训练扩散模型，以生成在外观和动态方面相似的新样本？
RQ2当扩散模型在极少量输入数据（例如几帧）上训练时，会涌现出哪些编辑和视频处理能力？
RQ3单视频扩散框架在多样化生成、时间外推及时间上采样方面的泛化能力如何？
RQ4在数据极其有限（单张图像/视频）时，哪些架构变更能够实现有效的扩散建模？

主要发现

在单张图像上训练的扩散模型可以生成保留全局结构与外观的多样样本。
一个三模型的单视频 DDPM 框架实现了从单个输入视频进行多样化视频生成、前向/后向外推和时间上采样。
该框架在少量帧（通常为 2–3 dozen 帧）到未见帧上演示了运动泛化。
SinFusion 可以编辑真实输入视频、在观测帧之外外推运动、并对视频帧进行上采样，在多样性-质量权衡方面优于现有的单视频方法。
提出了一种新的基于神经网络的多样性度量（NNFDIV）以及 NNFDIST 与 SVFID，用于评估来自单个视频的多样生成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。