QUICK REVIEW

[论文解读] Attention Toward Neighbors: A Context Aware Framework for High Resolution Image Segmentation

Fahim Faisal Niloy, M. Ashraful Amin|arXiv (Cornell University)|Jun 24, 2021

Advanced Neural Network Applications参考文献 14被引用 5

一句话总结

该论文提出了一种上下文感知注意力框架，通过聚合相邻块的上下文特征来提升高分辨率图像分割性能，使网络在不增加特征图尺寸的情况下获得更广的接受感受野。该方法在GID数据集上实现了最先进性能，并在多个基准测试中显著提升了mIoU和准确率，尤其在小块尺寸下边界错误频发的情况下表现突出。

ABSTRACT

High-resolution image segmentation remains challenging and error-prone due to the enormous size of intermediate feature maps. Conventional methods avoid this problem by using patch based approaches where each patch is segmented independently. However, independent patch segmentation induces errors, particularly at the patch boundary due to the lack of contextual information in very high-resolution images where the patch size is much smaller compared to the full image. To overcome these limitations, in this paper, we propose a novel framework to segment a particular patch by incorporating contextual information from its neighboring patches. This allows the segmentation network to see the target patch with a wider field of view without the need of larger feature maps. Comparative analysis from a number of experiments shows that our proposed framework is able to segment high resolution images with significantly improved mean Intersection over Union and overall accuracy.

研究动机与目标

解决由于分块方法中上下文信息有限而导致高分辨率图像分割错误频发的问题。
克服独立处理各分块的局限性，尤其是在分块边界处因缺少上下文信息而导致的问题。
在不增加中间特征图尺寸的前提下提升分割准确率，避免训练效率低下。
可无缝集成到现有的编码器-解码器架构中，用于高分辨率图像分割。

提出的方法

将输入图像划分为非重叠的正方形分块，目标分块记为I。
编码器处理目标分块I及其八个相邻分块，在上下文融合过程中冻结编码器权重。
将目标分块（Ie）和相邻分块（Ne）的编码特征重塑并拼接，形成一个9×C×HW张量。
通过Ie与Ne的点积计算相关性权重矩阵Wc，然后在最后一个轴上应用Softmax，以度量特征之间的依赖关系。
通过将Wc应用于Ne并聚合加权后的相邻特征，计算上下文特征，从而用长距离上下文信息增强Ie。
将增强后的特征传递给解码器进行分割，实现在不扩展特征图维度的前提下扩大有效感受野。

实验结果

研究问题

RQ1在高分辨率图像中，通过引入相邻分块的上下文信息是否能提升分割准确率？
RQ2所提出的注意力机制是否能在不增加特征图尺寸的前提下减少分块分割中的边界错误？
RQ3该框架是否能有效集成到现有的编码器-解码器架构中，用于高分辨率图像分割？
RQ4与基线分块方法相比，该方法在极高的分辨率图像和小分块尺寸下的表现如何？
RQ5该框架是否在GID等基准数据集上实现了最先进性能？

主要发现

所提框架在GID数据集上实现了最先进平均交并比（mIoU），优于先前所有方法，包括PT-GID。
在JSRT胸部X光数据集上，与基线模型相比，该方法将mIoU提升最高达12.5%，整体准确率提升最高达11.5%。
在达卡卫星数据集（DSD）上，该框架在所有分块尺寸下均持续提升mIoU和整体准确率，尤其在小分块中提升最为显著。
该方法通过引入相邻分块的上下文感知信息，显著减少了小分块分割中的边界错误，尤其在边界像素与内部像素比例较高的情况下优势明显。
在GID数据集上，该方法对建筑物类别达到97.57%的准确率，耕地为92.97%，森林为84.64%，草地为59.12%，水域为95.03%，在五种类别中的四种类别上超越所有竞争方法。
即使在小分块尺寸（如64×64）下，该框架仍保持高性能，而基线分块方法因边界像素过多而产生极高错误率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。