[논문 리뷰] Attention-guided Context Feature Pyramid Network for Object Detection
AC-FPN은 다중 스케일 맥락 정보를 수집하기 위한 Context Extraction Module (CEM)과 Context Attention 및 Content Attention으로 중요한 의존성을 강조하는 Attention-guided Module (AM)을 도입하여 FPN 기반 모델에 연결될 때 물체 탐지와 인스턴스 분할 성능을 향상시킵니다.
For object detection, how to address the contradictory requirement between feature map resolution and receptive field on high-resolution inputs still remains an open question. In this paper, to tackle this issue, we build a novel architecture, called Attention-guided Context Feature Pyramid Network (AC-FPN), that exploits discriminative information from various large receptive fields via integrating attention-guided multi-path features. The model contains two modules. The first one is Context Extraction Module (CEM) that explores large contextual information from multiple receptive fields. As redundant contextual relations may mislead localization and recognition, we also design the second module named Attention-guided Module (AM), which can adaptively capture the salient dependencies over objects by using the attention mechanism. AM consists of two sub-modules, i.e., Context Attention Module (CxAM) and Content Attention Module (CnAM), which focus on capturing discriminative semantics and locating precise positions, respectively. Most importantly, our AC-FPN can be readily plugged into existing FPN-based models. Extensive experiments on object detection and instance segmentation show that existing models with our proposed CEM and AM significantly surpass their counterparts without them, and our model successfully obtains state-of-the-art results. We have released the source code at https://github.com/Caojunxu/AC-FPN.
연구 동기 및 목표
- FPN 기반 탐지기의 고해상도 입력에서 특징 맵 해상도와 수용영역 간의 트레이드오프를 해결한다.
- 다양한 수용영역으로부터 다중 스케일 맥락 정보를 무거운 계산 없이 활용한다.
- 주의 기반 메커니즘을 도입하여 중복 맥_CONTEXT을 필터링하고 물체를 정확하게 위치시킨다.
- 더 나은 탐지 및 분할 결과를 얻기 위해 기존 FPN 아키텍처와 쉽게 연결될 수 있는 플러그인 모듈을 제공한다.
제안 방법
- Context Extraction Module (CEM)은 서로 다른 비율(예: 3, 6, 12)과 변형 가능 합성卷积을 사용하여 다양한 수용영역으로부터 큰 맥락 정보를 포착한다.
- CEM 내의 Dense 연결은 서로 다른 경로의 특징을 융합하고, 1x1 융합층은 거친 특징과 미세 특징을 결합한다.
- Attention-guided Module (AM)은 Context Attention Module (CxAM)과 Content Attention Module (CnAM)로 구성되어 의미적 의존성은 모델링하고 공간 정밀도는 보존한다.
- CxAM은 CEM 출력의 하위 영역 간 자기 주의를 계산하여 특징을 재가중하는 주의 맵을 생성한다.
- CnAM은 더 얕고 국지화된 맵의 특징을 사용하여 물체 위치 정밀성을 유지하고 CxAM 출력과 융합한다.
- AM 출력은 입력 특징과 병합되어 탐지를 위한 다중 스케일 표현을 정제한다.
실험 결과
연구 질문
- RQ1CEM이 고해상도 물체 탐지에서 과도한 오버헤드 없이 큰 맥락 정보를 개선할 수 있는가?
- RQ2제안된 AM이 의미적 및 공간적 주의를 활용해 중복 맥_CONTEXT를 효과적으로 필터링하고 위치 식별 및 인식력을 향상시키는가?
- RQ3AC-FPN이 COCO 같은 표준 벤치마크에서 기존의 FPN 기반 탐지기에 연결되었을 때 성능은 어떠한가?
- RQ4CEM의 변형 가능 합성卷积 및 Dense 연결이 성능과 위치 식별에 미치는 영향은 무엇인가?
- RQ5AC-FPN은 ResNet-50/101과 같은 다양한 백본 아키텍처 및 탐지기에 드롭인 강화로 호환되는가?
주요 결과
| 방법 | 백본 | AP | AP50 | AP75 | AP_S | AP_M | AP_L |
|---|---|---|---|---|---|---|---|
| FPN* [18] | ResNet-50 | 37.2 | 59.3 | 40.2 | 20.9 | 39.4 | 46.9 |
| FPN DetNet-59 | DetNet-59 | 40.3 | 62.1 | 43.8 | 23.6 | 42.6 | 50.0 |
| FPN* [18] | ResNet-101 | 39.4 | 61.5 | 42.8 | 22.7 | 42.1 | 49.9 |
| DRFCN [54] | ResNet-101 | 37.1 | 58.9 | 39.8 | 17.1 | 40.3 | 51.3 |
| Mask R-CNN* | ResNet-101 | 40.2 | 62.0 | 43.9 | 22.8 | 43.0 | 51.1 |
| Cascade R-CNN* | ResNet-101 | 42.9 | 61.5 | 46.6 | 23.7 | 45.3 | 55.2 |
| C-Mask R-CNN [34] | ResNet-101 | 42.0 | 62.9 | 46.4 | 23.4 | 44.7 | 53.8 |
| AC-FPN* | ResNet-50 | 40.4 | 63.0 | 44.0 | 23.5 | 43.0 | 50.9 |
| AC-FPN* | ResNet-101 | 42.4 | 65.1 | 46.2 | 25.0 | 45.2 | 53.2 |
| AC-Cascade* | ResNet-101 | 45.0 | 64.4 | 49.0 | 26.9 | 47.7 | 56.6 |
- AC-FPN은 COCO test-dev의 백본과 탐지기에서 기준 FPN 기반 탐지기보다 일관되게 성능을 향상시킨다.
- CEM과 AM을 기존 모델에 연결하면 AP, AP50, AP75 및 크기별(S, M, L)에서 주목할 만한 이득이 나타난다.
- CEM은 더 풍부한 다중 스케일 맥락을 포착하고 Dense 연결은 정보 융합을 강화하며, 변형 가능 합성卷近은 큰 물체에서 이득을 제공하고 작은 물체에는 다소 영향을 준다.
- CxAM+CnAM이 함께 가장 큰 개선을 제공하여 의미적 관계와 정확한 위치 식별을 결합하는 것이 더 우수한 주의 맵으로 이어진다.
- 최신 baselines와 비교하여, ResNet-101을 사용하는 AC-FPN은 여러 경쟁 방법보다 높은 AP(46.2) 및 AP75(49.0)을 달성하며; AC-Cascade는 COCO test-dev에서 45.0 AP와 49.0 AP75를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.