[论文解读] Learning Robust Representations via Multi-View Information Bottleneck
本文将信息瓶颈扩展到无监督的多视图学习,提出 Multi-View Information Bottleneck (MIB) 以丢弃非共享的视图信息并提升鲁棒性,在 Sketchy 和 MIR-Flickr 的低标注场景中达到最先进的结果,并通过数据增强实现单视图的强鲁棒性。
The information bottleneck principle provides an information-theoretic method for representation learning, by training an encoder to retain all information which is relevant for predicting the label while minimizing the amount of other, excess information in the representation. The original formulation, however, requires labeled data to identify the superfluous information. In this work, we extend this ability to the multi-view unsupervised setting, where two views of the same underlying entity are provided but the label is unknown. This enables us to identify superfluous information as that not shared by both views. A theoretical analysis leads to the definition of a new multi-view model that produces state-of-the-art results on the Sketchy dataset and label-limited versions of the MIR-Flickr dataset. We also extend our theory to the single-view setting by taking advantage of standard data augmentation techniques, empirically showing better generalization capabilities when compared to common unsupervised approaches for representation learning.
研究动机与目标
- 在有限或无标注的情况下,利用多视图冗余来推动鲁棒表示学习。
- 将信息瓶颈原理扩展到无监督的多视图设置。
- 开发一个可处理的目标函数,在最小化冗余信息的同时保留跨视图共享的预测信息。
- 证明视图之间的互相冗余能够提升泛化能力和鲁棒性。
提出的方法
- 定义视图之间的冗余并推导多视图信息瓶颈目标。
- 构建一个对称损失,结合最小充分表示和视图编码器之间的对称化 KL 散度。
- 使用基于样本的互信息估计器来最大化视图之间的相似性。
- 通过产生互相冗余视图的数据增强,将其推广到自监督的单视图学习。
- 当视图具有共享边缘分布时,允许编码器之间参数共享,在实践中实现单个编码器。
- 提供计算 MIB 损失的算法步骤,并通过 beta 参数对充分性和鲁棒性之间的权衡进行调优。
实验结果
研究问题
- RQ1在互相冗余的无监督多视图学习中,表示是否在保留预测能力的同时减少冗余信息?
- RQ2MIB 目标是否通过丢弃两视图均未共享的视图独有信息来实现鲁棒性?
- RQ3在标准多视图数据集的低标注场景中,MIB 相较于现有基线的表现如何?
- RQ4基于数据增强的自监督能否复制互相冗余并提高单视图鲁棒性?
主要发现
| 方法 | mAP@all | Prec@200 |
|---|---|---|
| SaN (Yu et al., 2017) | 0.208 | 0.292 |
| GN Triplet (Sangkloy et al., 2016) | 0.529 | 0.716 |
| Siamese CNN (Qi et al., 2016) | 0.481 | 0.612 |
| Siamese-AlexNet (Liu et al., 2017) | 0.518 | 0.690 |
| Triplet-AlexNet (Liu et al., 2017) | 0.573 | 0.761 |
| DSH ∗ (Liu et al., 2017) | 0.711 | 0.866 |
| GDH ∗ (Zhang et al., 2018) | 0.810 | - |
| MV-InfoMax | 0.008 | 0.008 |
| MIB | 0.856 ± 0.005 | 0.848 ± 0.005 |
| MIB ∗ (64-bits) | 0.851 ± 0.004 | 0.834 ± 0.003 |
- MIB 在 Sketchy 上实现了强劲的性能,mAP@all = 0.856,Prec@200 = 0.848(β = 1,64-bit 表示)。
- 在 MIR-Flickr 上,MIB 在低标注场景下达到竞争力的平均精度,且在标注稀缺时超越了若干基线。
- 在标注稀少的设置中,使用更高的 β 通过更积极的压缩来提高性能,同时仍保留预测信息。
- 该模型通过对称化 KL 项对齐跨视图的表示,提升跨视图检索和分类的鲁棒性。
- 在 MNIST 的自监督单视图实验表明,放弃更多观测信息的表示在标注样本更少时表现更好,β 约为 1 时实现了标签高效的性能。
- 在各项任务中,MIB 始终减少冗余信息,同时保留视图之间共享的预测内容。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。