[论文解读] CCNet: Criss-Cross Attention for Semantic Segmentation
CCNet 引入一种递归的十字交叉注意力模块,以高效地捕捉整图上下文信息,在比非局部方法更低的内存和计算开销下实现最先进的分割结果。
Contextual information is vital in visual understanding problems, such as semantic segmentation and object detection. We propose a Criss-Cross Network (CCNet) for obtaining full-image contextual information in a very effective and efficient way. Concretely, for each pixel, a novel criss-cross attention module harvests the contextual information of all the pixels on its criss-cross path. By taking a further recurrent operation, each pixel can finally capture the full-image dependencies. Besides, a category consistent loss is proposed to enforce the criss-cross attention module to produce more discriminative features. Overall, CCNet is with the following merits: 1) GPU memory friendly. Compared with the non-local block, the proposed recurrent criss-cross attention module requires 11x less GPU memory usage. 2) High computational efficiency. The recurrent criss-cross attention significantly reduces FLOPs by about 85% of the non-local block. 3) The state-of-the-art performance. We conduct extensive experiments on semantic segmentation benchmarks including Cityscapes, ADE20K, human parsing benchmark LIP, instance segmentation benchmark COCO, video segmentation benchmark CamVid. In particular, our CCNet achieves the mIoU scores of 81.9%, 45.76% and 55.47% on the Cityscapes test set, the ADE20K validation set and the LIP validation set respectively, which are the new state-of-the-art results. The source codes are available at \url{https://github.com/speedinghzl/CCNet}.
研究动机与目标
- 激发并建模用于密集语义分割的整图上下文信息。
- 设计一个轻量级注意力模块,在十字交叉路径上聚合上下文。
- 通过类别一致性损失提高判别能力。
- 将该方法扩展到3D以用于视频任务和时间上下文。
- 在多个分割基准上展示最先进的性能。
提出的方法
- 提出一个十字交叉注意力模块,对每个像素的行和列进行关注,将注意力权重降低到每个位置大约 2√N。
- 通过堆叠两个十字交叉注意力模块应用递归 RCCA(RCCA),将信息传播到所有像素。
- 共享 RCCA 参数,将密集上下文与局部特征融合以进行分割预测。
- 引入类别一致性损失,以促进类内特征紧凑和类间分离。
- 将 RCCA 扩展到3D以处理视频数据和时间上下文整合。
实验结果
研究问题
- RQ1十字交叉注意力是否能高效捕捉用于密集预测的整图上下文?
- RQ2对十字交叉注意力的递归堆叠是否能在降低计算和内存的情况下实现对整幅图像的依赖关系?
- RQ3类别一致性损失是否提高 RCCA 特征的判别能力?
- RQ4在主要分割基准上,CCNet 的性能与非局部和其他上下文聚合方法相比如何?
- RQ5该方法能扩展到3D以处理视频数据的时间上下文吗?
主要发现
- CCNet 在 Cityscapes 测试集(mIoU 81.9%)、ADE20K 验证集(mIoU 45.76%)和 LIP 验证集(mIoU 55.47%)上取得了最先进的结果。
- 与非局部块相比,十字交叉注意力模块将内存占用降低约11倍,FLOPs 降低约85%。
- RCCA 通过两次顺序的十字交叉注意力传递实现密集上下文信息的获取,同时共享参数。
- 当与 RCCA 结合时,类别一致性损失提高了特征判别能力和分割性能。
- 3D 十字交叉注意力将该方法扩展到视频分割任务中的时间上下文。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。