[논문 리뷰] Relation Networks for Object Detection
본 논문은 탐지된 객체들 간의 상호작용을 외모(appearance)와 기하학적 정보를 활용해 모델링하는 객체 관계 모듈을 제안하며, CNN 기반 파이프라인에서 엔드-투-엔드 객체 탐지 성능을 개선하고, 인스턴스 인식 및 중복 제거를 포함합니다.
Although it is well believed for years that modeling relations between objects would help object recognition, there has not been evidence that the idea is working in the deep learning era. All state-of-the-art object detection systems still rely on recognizing object instances individually, without exploiting their relations during learning. This work proposes an object relation module. It processes a set of objects simultaneously through interaction between their appearance feature and geometry, thus allowing modeling of their relations. It is lightweight and in-place. It does not require additional supervision and is easy to embed in existing networks. It is shown effective on improving object recognition and duplicate removal steps in the modern object detection pipeline. It verifies the efficacy of modeling object relations in CNN based detection. It gives rise to the first fully end-to-end object detector.
연구 동기 및 목표
- 깊은 CNN에서 객체 간 관계를 모델링하는 것이 탐지 성능을 향상시킨다는 것을 동기화하고 검증한다.
- 추가 감독 없이 기존 탐지기에 통합될 수 있는 경량의 현장 내 객체 관계 모듈을 개발한다.
- 인스턴스 인식 및 중복 제거에서의 개선을 시연하여 엔드-투-엔드 객체 탐지를 가능하게 한다.
- 제안하는 방법이 제안물의 제안, 인식 및 중복 제거 단계를 함께 최적화하는 엔드-투-엔드 학습의 근거를 제공한다.
제안 방법
- 시퀀스 요소가 아니라 객체 집합에 대해 작동하도록 주의 메커니즘을 확장한다.
- 학습된 appearance 기반 주의력과 변환 불변인 기하학 기반 가중치를 결합하여 객체 관계 특징을 계산한다.
- 여러 관계 헤드를 사용하는 다중 관계 체계를 도입하여 다양한 상호 작용을 포착하고, 입력 appearance 특징과 관계 특징을 집계한다.
- 전통적인 NMS를 학습 가능한 중복 제거 네트워크로 대체하여 모든 제안과 점수를 고려하고, 순위 특징 및 공간 기하를 이용해 reasoning한다.
- relation 모듈을 역전파하여 백본 및 헤드 네트워크로 엔드-투-엔드 학습이 가능하도록 한다.
실험 결과
연구 질문
- RQ1표준 영역 기반 탐지기에 통합될 때 attention과 유사한 객체 관계 모듈이 인스턴스 인식을 향상시킬 수 있는가?
- RQ2쌍 객체의 기하학 및 외관 관계를 모델링하는 것이 전통적인 NMS/Soft-NMS를 넘어 중복 제거를 향상시키는가?
- RQ3관계 모듈이 제안, 인식 및 중복 제거 단계를 함께 최적화할 때 엔드-투-엔드 학습이 가능하고 유익한가?
- RQ4관계 수 및 관계 모듈의 수가 탐지 성능 및 계산 비용에 어떤 영향을 미치는가?
주요 결과
| 헤드 | mAP | mAP 50 | mAP 75 | #매개변수 | FLOPS |
|---|---|---|---|---|---|
| (a) 2fc (1024) | 29.6 | 50.9 | 30.1 | 38.0M | 80.2B |
| (b) 2fc (1432) | 29.7 | 50.3 | 30.2 | 44.1M | 82.0B |
| (c) 3fc (1024) | 29.0 | 49.4 | 29.6 | 39.0M | 80.5B |
| (d) 2fc+res {r1,r2}={1,1} | 29.9 | 50.6 | 30.5 | 44.0M | 82.1B |
| (e) 2fc+global | 29.6 | 50.3 | 30.8 | 38.2M | 82.2B |
| (f) 2fc+RM {r1,r2}={1,1} | 31.9 | 53.7 | 33.1 | 44.0M | 82.6B |
| (g) 2fc (1024) + 2x | 30.4 | 51.7 | 31.4 | 50.2M | 83.8B |
| (h) 2fc+2x +RM {r1,r2}={1,1} | 32.5 | 54.3 | 34.1 | 56.2M | 86.2B |
| (i) 2fc+res {r1,r2}={2,2} | 29.8 | 50.5 | 30.5 | 50.0M | 84.0B |
| (j) 2fc+RM {2,2} | 32.5 | 54.0 | 33.8 | 50.0M | 84.9B |
- 객체 관계 모듈을 도입하면 2fc 헤드 기준에서 단일 관계 모듈을 사용할 때 mAP가 29.6에서 31.9로 상승하고, 추가 구성으로 최대 32.5 mAP까지 상승하는 등 유의미한 향상을 보인다.
- 다중 관계 헤드 및 다중 관계 모듈을 사용하면 추가 이득이 생기며 2fc+RM 및 1,1 구성에서 32.5 mAP를 달성하고, 특정 설정에서 2x 컨텍스트와 RM을 결합하면 최대 34.1 mAP까지 도달한다.
- 기하학 가중치는 중요하며 더 간단한 버전으로 대체하면 성능이 감소하고, 학습된 기하 임베딩이 변환 불변인 최적의 설계가 포함된다.
- 제안된 중복 제거 네트워크는 관계 모듈과 함께 학습될 때 정확도와 속도 모두에서 전통적인 NMS/Soft-NMS를 능가하며 엔드-투-엔드 학습을 가능하게 한다.
- 엔드-투-엔드 학습이 제안, 인식 및 중복 제거를 공동으로 최적화하면 독립적으로 학습된 단계에 비해 인식 정확도가 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.