Skip to main content
QUICK REVIEW

[论文解读] Learning Robust Representations via Multi-View Information Bottleneck

Marco Federici, Anjan Dutta|arXiv (Cornell University)|Feb 17, 2020
Domain Adaptation and Few-Shot Learning参考文献 45被引用 83
一句话总结

本文将信息瓶颈扩展到无监督的多视图学习,提出 Multi-View Information Bottleneck (MIB) 以丢弃非共享的视图信息并提升鲁棒性,在 Sketchy 和 MIR-Flickr 的低标注场景中达到最先进的结果,并通过数据增强实现单视图的强鲁棒性。

ABSTRACT

The information bottleneck principle provides an information-theoretic method for representation learning, by training an encoder to retain all information which is relevant for predicting the label while minimizing the amount of other, excess information in the representation. The original formulation, however, requires labeled data to identify the superfluous information. In this work, we extend this ability to the multi-view unsupervised setting, where two views of the same underlying entity are provided but the label is unknown. This enables us to identify superfluous information as that not shared by both views. A theoretical analysis leads to the definition of a new multi-view model that produces state-of-the-art results on the Sketchy dataset and label-limited versions of the MIR-Flickr dataset. We also extend our theory to the single-view setting by taking advantage of standard data augmentation techniques, empirically showing better generalization capabilities when compared to common unsupervised approaches for representation learning.

研究动机与目标

  • 在有限或无标注的情况下,利用多视图冗余来推动鲁棒表示学习。
  • 将信息瓶颈原理扩展到无监督的多视图设置。
  • 开发一个可处理的目标函数,在最小化冗余信息的同时保留跨视图共享的预测信息。
  • 证明视图之间的互相冗余能够提升泛化能力和鲁棒性。

提出的方法

  • 定义视图之间的冗余并推导多视图信息瓶颈目标。
  • 构建一个对称损失,结合最小充分表示和视图编码器之间的对称化 KL 散度。
  • 使用基于样本的互信息估计器来最大化视图之间的相似性。
  • 通过产生互相冗余视图的数据增强,将其推广到自监督的单视图学习。
  • 当视图具有共享边缘分布时,允许编码器之间参数共享,在实践中实现单个编码器。
  • 提供计算 MIB 损失的算法步骤,并通过 beta 参数对充分性和鲁棒性之间的权衡进行调优。

实验结果

研究问题

  • RQ1在互相冗余的无监督多视图学习中,表示是否在保留预测能力的同时减少冗余信息?
  • RQ2MIB 目标是否通过丢弃两视图均未共享的视图独有信息来实现鲁棒性?
  • RQ3在标准多视图数据集的低标注场景中,MIB 相较于现有基线的表现如何?
  • RQ4基于数据增强的自监督能否复制互相冗余并提高单视图鲁棒性?

主要发现

方法mAP@allPrec@200
SaN (Yu et al., 2017)0.2080.292
GN Triplet (Sangkloy et al., 2016)0.5290.716
Siamese CNN (Qi et al., 2016)0.4810.612
Siamese-AlexNet (Liu et al., 2017)0.5180.690
Triplet-AlexNet (Liu et al., 2017)0.5730.761
DSH ∗ (Liu et al., 2017)0.7110.866
GDH ∗ (Zhang et al., 2018)0.810-
MV-InfoMax0.0080.008
MIB0.856 ± 0.0050.848 ± 0.005
MIB ∗ (64-bits)0.851 ± 0.0040.834 ± 0.003
  • MIB 在 Sketchy 上实现了强劲的性能,mAP@all = 0.856,Prec@200 = 0.848(β = 1,64-bit 表示)。
  • 在 MIR-Flickr 上,MIB 在低标注场景下达到竞争力的平均精度,且在标注稀缺时超越了若干基线。
  • 在标注稀少的设置中,使用更高的 β 通过更积极的压缩来提高性能,同时仍保留预测信息。
  • 该模型通过对称化 KL 项对齐跨视图的表示,提升跨视图检索和分类的鲁棒性。
  • 在 MNIST 的自监督单视图实验表明,放弃更多观测信息的表示在标注样本更少时表现更好,β 约为 1 时实现了标签高效的性能。
  • 在各项任务中,MIB 始终减少冗余信息,同时保留视图之间共享的预测内容。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。