QUICK REVIEW

[论文解读] Image Inpainting with Learnable Bidirectional Attention Maps

Chaohao Xie, Shaohui Liu|arXiv (Cornell University)|Sep 3, 2019

Generative Adversarial Networks and Image Synthesis参考文献 39被引用 23

一句话总结

本文提出了一种可学习双向注意力图（LBAM），这是一种新型注意力机制，能够以端到端的方式联合学习特征重归一化与掩码更新，用于图像修复。通过引入可学习的前向与反向注意力图，LBAM使U-Net解码器能够专注于补全空洞，显著提升了在Paris StreetView和Places数据集上的视觉质量、清晰度与结构一致性，优于当前最先进方法。

ABSTRACT

Most convolutional network (CNN)-based inpainting methods adopt standard convolution to indistinguishably treat valid pixels and holes, making them limited in handling irregular holes and more likely to generate inpainting results with color discrepancy and blurriness. Partial convolution has been suggested to address this issue, but it adopts handcrafted feature re-normalization, and only considers forward mask-updating. In this paper, we present a learnable attention map module for learning feature renormalization and mask-updating in an end-to-end manner, which is effective in adapting to irregular holes and propagation of convolution layers. Furthermore, learnable reverse attention maps are introduced to allow the decoder of U-Net to concentrate on filling in irregular holes instead of reconstructing both holes and known regions, resulting in our learnable bidirectional attention maps. Qualitative and quantitative experiments show that our method performs favorably against state-of-the-arts in generating sharper, more coherent and visually plausible inpainting results. The source code and pre-trained models will be available.

研究动机与目标

为解决标准卷积与部分卷积（PConv）在处理不规则空洞时的局限性，减少图像修复中的颜色差异与模糊问题。
通过端到端学习取代部分卷积中对手动设计掩码更新与固定归一化方式的依赖，实现对这些过程的可学习化。
通过引入反向注意力图提升解码器效率与专注度，抑制已知区域的重建。
通过稳定特征学习与掩码传播，使对抗性损失的训练更加有效。

提出的方法

提出一种可学习注意力图模块，以可微分的、端到端学习的重归一化机制替代PConv中的硬性0-1掩码与手工设计的归一化方法。
引入前向注意力图用于编码器层级的特征重归一化与掩码更新，使其在特征传播过程中适应不规则空洞形状。
在解码器中引入反向注意力图，以抑制已知区域的特征学习，强制网络仅关注空洞补全。
采用U-Net架构并结合前向与反向注意力图，实现在编码器与解码器之间的双向注意力学习。
在注意力图网络中使用Sigmoid或LeakyReLU作为激活函数，并通过消融实验验证最优选择。
集成对抗性损失以提升感知质量，该方法的可行性得益于可学习注意力带来的稳定训练。

实验结果

研究问题

RQ1端到端学习的注意力图是否能在图像修复中超越部分卷积中手工设计的掩码更新与归一化方法？
RQ2在解码器中引入反向注意力图是否能提升对空洞补全的关注度，并减少对已知区域的重建？
RQ3所提出的可学习双向注意力机制是否能支持对抗性损失的有效训练，从而提升感知质量？
RQ4在不规则空洞上，该模型在结构一致性与纹理真实感方面相较于最先进方法表现如何？

主要发现

在Paris StreetView数据集的(0.4, 0.5]空洞尺寸范围内，完整LBAM模型的PSNR达到28.73，SSIM达到0.889，优于PConv及其他SOTA方法。
用户研究表明，LBAM在63.2%的案例中被选为最符合视觉真实感的结果，显著优于PConv（15.2%）及其他基线方法。
消融实验表明，可学习注意力、反向注意力与合适激活函数（如ReLU）的组合对实现最优性能至关重要。
采用对抗性损失的模型（Ours(w/o L_adv)）虽在PSNR与SSIM上表现更优，但视觉质量较低，表明对抗性损失虽略微降低指标，却能提升感知真实感。
可视化结果表明，LBAM能有效减少伪影与模糊，尤其在解码器中，反向注意力图显著抑制了已知区域的重建。
掩码更新的可视化证实，编码器的掩码在深层逐渐缩小，而解码器的掩码则缩小了已知区域，表明实现了有效的双向自适应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。