[论文解读] Reducing Information Bottleneck for Weakly Supervised Semantic Segmentation
论文提出通过移除最后一个激活并引入 GNDRP 池化来减少弱监督语义分割分类器最终层的信息瓶颈,从而在 VOC 2012 和 COCO 2014 上实现更好的定位和最先进的结果。
Weakly supervised semantic segmentation produces pixel-level localization from class labels; however, a classifier trained on such labels is likely to focus on a small discriminative region of the target object. We interpret this phenomenon using the information bottleneck principle: the final layer of a deep neural network, activated by the sigmoid or softmax activation functions, causes an information bottleneck, and as a result, only a subset of the task-relevant information is passed on to the output. We first support this argument through a simulated toy experiment and then propose a method to reduce the information bottleneck by removing the last activation function. In addition, we introduce a new pooling method that further encourages the transmission of information from non-discriminative regions to the classification. Our experimental evaluations demonstrate that this simple modification significantly improves the quality of localization maps on both the PASCAL VOC 2012 and MS COCO 2014 datasets, exhibiting a new state-of-the-art performance for weakly supervised semantic segmentation. The code is available at: https://github.com/jbeomlee93/RIB.
研究动机与目标
- 指出最终层的信息瓶颈导致定位图聚焦在较小的判别区域。
- 提出一个简单修改,通过移除最后的激活函数来减少瓶颈。
- 引入 GNDRP 池化,促进来自非判别区域的信息流。
- 证明在 VOC 2012 和 COCO 2014 上定位图和分割性能的改进。
提出的方法
- 模型分析表明瓶颈主要出现在最终层,这是由于双边激活(如 sigmoid/softmax)。
- 用一个无瓶颈损失 L_RIB 代替最终的 sigmoid 激活,使用 margin m 来推动 y^c。
- 以从 BCE 训练的基线开始,进行逐图像微调以获得 x-适应参数,目标为 L_RIB。
- 引入 GNDRP 池化,仅聚合低 CAM 分数的位置,从而将非判别区域推入最终决策。
- 在 RIB 迭代中汇聚 CAM 以形成最终定位图 M。
- 应用种子细化(IRN/ PSA)和可选的显著对象监督,生成用于分割的伪真值。
实验结果
研究问题
- RQ1移除最终激活是否能降低信息瓶颈并改善弱监督分割的定位图?
- RQ2引入强调非判别区域的池化方案是否能提升定位覆盖?
- RQ3逐图像适应的微调(RIB)是否能产生更有信息量的 CAM 以用于伪真值生成?
- RQ4将 RIB 与标准种子细化和显著性线索结合,对分割性能有何影响?
主要发现
- 移除最终激活降低了信息瓶颈,得到的 CAM 覆盖更大范围的对象。
- RIB 相较 CAM 基线在初始种子上提升了 7.7 个百分点。
- RIB 结合 GNDRP 在 PASCAL VOC 2012 上优于此前方法,取得验证集 68.3%、测试集 68.6% 的 mIoU,使用图像标签监督。
- 在 MS COCO 2014 上,RIB 相对于 IRN 提升了种子和伪 GT 掩模的 mIoU,提升幅度为 2.7–3.0 个百分点。
- 在显式定位线索设置下,带显著性监督的 RIB 在 COCO 验证集达到 43.8% mIoU,COCO 测试集也为 43.8%(相比之前的基线)。
- 在 VOC 和 COCO 的所有场景中,RIB 为弱监督语义分割带来新的最先进性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。