Skip to main content
QUICK REVIEW

[论文解读] Explicitly Minimizing the Blur Error of Variational Autoencoders

Gustav Bredell, Kyriakos Flouris|arXiv (Cornell University)|Apr 12, 2023
Generative Adversarial Networks and Image Synthesis被引用 8
一句话总结

论文提出一个针对模糊错误的重构项,通过在傅里叶域对重构损失进行加权,采用类似维纳解卷积的核,同时保持ELBO优化。

ABSTRACT

Variational autoencoders (VAEs) are powerful generative modelling methods, however they suffer from blurry generated samples and reconstructions compared to the images they have been trained on. Significant research effort has been spent to increase the generative capabilities by creating more flexible models but often flexibility comes at the cost of higher complexity and computational cost. Several works have focused on altering the reconstruction term of the evidence lower bound (ELBO), however, often at the expense of losing the mathematical link to maximizing the likelihood of the samples under the modeled distribution. Here we propose a new formulation of the reconstruction term for the VAE that specifically penalizes the generation of blurry images while at the same time still maximizing the ELBO under the modeled distribution. We show the potential of the proposed loss on three different data sets, where it outperforms several recently proposed reconstruction losses for VAEs.

研究动机与目标

  • 解决标准VAE产生的模糊生成样本和重构问题。
  • 开发一种显式惩罚模糊的重构损失,同时不破坏ELBO框架。
  • 实现逐图像的模糊自适应,同时保持计算效率。
  • 在多个数据集上展示更清晰的重构和更好的感知质量。

提出的方法

  • 在傅里叶域建模重构误差以识别由模糊引起的分量。
  • 引入受Wiener解卷积启发的加权W,在频率域近似为F(k),以强调高频模糊误差。
  • 使用一个逐图像的内核预测器G_gamma(z)来估计每个输入图像的模糊核k。
  • 将傅里叶域重构项与协方差Sigma_k的多元高斯似然联系起来,通过循环矩阵实现行列式的计算。
  • 交替优化:(i) 使用重加权重构项的ELBO,其中Sigma_k依赖于z;(ii) 更新内核预测器G_gamma(z),以最小化x * G_gamma(z) - x_hat_theta。
  • 提供在Wiener滤波中加入一个小常数C以及一个epsilon正则化内核K(epsilon)以稳定优化的机制。

实验结果

研究问题

  • RQ1一个显式针对模糊的重构损失是否能在不牺牲基于似然的训练的前提下提升VAE的清晰度?
  • RQ2逐图像的模糊内核估计是否比固定或全局内核在提升清晰度方面更有效?
  • RQ3是否可高效地计算引入的协方差行列式以用于训练?
  • RQ4在自然图像和医学成像领域中,该模糊聚焦损失的性能表现如何?
  • RQ5基于维纳滤波的加权和内核大小对重构和生成质量有何影响?

主要发现

  • 所提出的聚焦模糊的重构项在重构更清晰且感知指标方面优于若干重构损失。
  • 逐图像模糊内核估计(通过G_gamma(z))在大epsilon权重下优于固定Sigma设置。
  • 该方法在CelebA(64×64和256×256)以及MRI脑切片数据(HCP)上的重构质量与生成指标均表现出显著提升。
  • 该方法在医学成像领域也能有效应用,无需领域特定的再训练。
  • 一个实用的优化策略是在逐步切换到学习得到的Sigma_k之前,先使用初始的自由方差阶段(Sigma逆设为单位矩阵)以确保稳定训练。
  • 定量结果显示感知度量(如LPIPS、FID)和重构清晰度的提升,以及具有竞争力的或更高的生成质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。