Skip to main content
QUICK REVIEW

[论文解读] BinGAN: Learning Compact Binary Descriptors with a Regularized GAN

Maciej Zięba, Piotr Semberecki|arXiv (Cornell University)|Jun 18, 2018
Advanced Image and Video Retrieval Techniques参考文献 27被引用 38
一句话总结

本文提出BinGAN,一种通过利用中间判别器特征来学习紧凑、高度判别性的二值图像描述子的正则化生成对抗网络(GAN)框架。通过引入距离匹配正则化器(DMR)和调整后的二值化表示熵(BRE)正则化器,BinGAN保留了从高维特征到低维二值码的汉明距离,实现了在图像匹配与检索任务中的最先进性能,同时内存和计算成本极低。

ABSTRACT

In this paper, we propose a novel regularization method for Generative Adversarial Networks, which allows the model to learn discriminative yet compact binary representations of image patches (image descriptors). We employ the dimensionality reduction that takes place in the intermediate layers of the discriminator network and train binarized low-dimensional representation of the penultimate layer to mimic the distribution of the higher-dimensional preceding layers. To achieve this, we introduce two loss terms that aim at: (i) reducing the correlation between the dimensions of the binarized low-dimensional representation of the penultimate layer i. e. maximizing joint entropy) and (ii) propagating the relations between the dimensions in the high-dimensional space to the low-dimensional space. We evaluate the resulting binary image descriptors on two challenging applications, image matching and retrieval, and achieve state-of-the-art results.

研究动机与目标

  • 通过利用GAN来缩小监督式与无监督式二值描述子学习之间的性能差距。
  • 学习紧凑的、低维的二值表示,以保留来自高维中间特征的判别能力。
  • 在保持或提升匹配与检索准确率的同时,降低与高维描述子相关的内存和计算成本。
  • 通过GAN的生成器实现合成数据生成,以支持半监督学习。
  • 开发一种新型正则化方案,以在特征空间维度间保留样本间关系。

提出的方法

  • 该方法使用GAN判别器的倒数第二层作为紧凑的二值描述子,通过一种新型距离匹配正则化器(DMR)进行训练,以在高维空间与低维空间之间保持样本对之间的汉明距离。
  • DMR项最小化高维特征中汉明距离与其对应低维二值表示之间差异,确保相似的图像块在二值空间中仍保持接近。
  • 引入调整后的二值化表示熵(BRE)正则化器,以最大化不相关二值向量对的联合熵,从而增强多样性并防止二值码本中的模式崩溃。
  • 模型通过对抗损失、DMR和BRE正则化相结合的方式端到端训练,使网络能够学习到紧凑且具有判别力的二值码。
  • 生成器网络被训练以生成逼真的图像块,从而实现数据增强和半监督微调。
  • 最终的二值描述子从判别器的倒数第二层提取,经过二值化处理后,无需额外头部或头部训练。

实验结果

研究问题

  • RQ1基于GAN的架构能否在无需成对标签的情况下,学习到性能可与监督方法相媲美或超越的紧凑二值图像描述子?
  • RQ2如何有效将高维特征空间中图像块之间的汉明距离关系传递到低维二值表示中?
  • RQ3何种正则化策略能够同时保留样本间距离关系,并最大化紧凑码空间中不相关二值向量对的熵?
  • RQ4GAN的生成器能否生成与真实图像块语义相近的逼真图像块,从而实现有效的数据增强?
  • RQ5所提出的DMR与BRE正则化器在性能上各自及联合贡献程度如何?

主要发现

  • 在Brown数据集上,BinGAN在所有无监督二值描述子中实现了最低的FPR@95%,在Yosemite子集上达到16.88%,当同时使用DMR与BRE正则化器时。
  • 引入DMR正则化器后,Yosemite子集上的FPR@95%从基线GAN的32.72%降低至16.88%,表明性能显著提升。
  • 增加调整后的BRE正则化器后,Liberty子集上的FPR@95%进一步降低至30.76%,表明码本多样性与鲁棒性得到增强。
  • 生成器网络生成的合成图像块在视觉上与真实图像块相似,且与真实图像块最接近的合成图像块在二值描述子空间中往往无法区分。
  • 消融实验表明,DMR与BRE正则化器均不可或缺,因为任一移除都会导致所有测试子集上性能明显下降。
  • 尽管为无监督方法,BinGAN在图像匹配与检索任务中仍优于当前最先进方法,包括DBD-MQ、D-BRIEF与BinBoost。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。