[논문 리뷰] RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder
RelationNet++은 Bridging Visual Representations (BVR)을 도입합니다. 주의 기반 모듈로, 이질적인 객체 표현들(예: centers, corners, anchors)을 단일 검출기로 융합하여 RetinaNet, Faster R-CNN, FCOS, ATSS 전반에 걸쳐 일관된 AP 이득을 얻고, 강력한 백본을 사용하여 COCO test-dev에서 52.7 AP에 도달합니다.
Existing object detection frameworks are usually built on a single format of object/part representation, i.e., anchor/proposal rectangle boxes in RetinaNet and Faster R-CNN, center points in FCOS and RepPoints, and corner points in CornerNet. While these different representations usually drive the frameworks to perform well in different aspects, e.g., better classification or finer localization, it is in general difficult to combine these representations in a single framework to make good use of each strength, due to the heterogeneous or non-grid feature extraction by different representations. This paper presents an attention-based decoder module similar as that in Transformer~\cite{vaswani2017attention} to bridge other representations into a typical object detector built on a single representation format, in an end-to-end fashion. The other representations act as a set of \emph{key} instances to strengthen the main \emph{query} representation features in the vanilla detectors. Novel techniques are proposed towards efficient computation of the decoder module, including a \emph{key sampling} approach and a \emph{shared location embedding} approach. The proposed module is named \emph{bridging visual representations} (BVR). It can perform in-place and we demonstrate its broad effectiveness in bridging other representations into prevalent object detection frameworks, including RetinaNet, Faster R-CNN, FCOS and ATSS, where about $1.5\sim3.0$ AP improvements are achieved. In particular, we improve a state-of-the-art framework with a strong backbone by about $2.0$ AP, reaching $52.7$ AP on COCO test-dev. The resulting network is named RelationNet++. The code will be available at https://github.com/microsoft/RelationNet2.
연구 동기 및 목표
- 다양한 객체/부품 표현을 단일 검출기 내에서 결합해 보완적 강점을 활용하도록 동기를 부여합니다.
- 마스터 표현을 보조 표현으로 보강하는 일반적이고 엔드-투-엔드 브리지를 개발합니다(BVR).
- 추론을 실용적으로 유지하기 위해 핵 샘플링과 공유 위치 임베딩으로 효율성을 보장합니다.
- BVR의 플러그인 가능성을 다양한 검출기(RetinaNet, Faster R-CNN, FCOS, ATSS)에 시사합니다.
- 데이터셋(COCO) 및 최첨단 백본에서의 이득을 보입니다.
제안 방법
- 맞춤형 주의 기반 모듈인 Bridging Visual Representations (BVR)을 도입합니다. 여기서 마스터 표현은 질의(query)로 작용하고 보조 표현은 키로 작용하여 질의 특징을 강화합니다.
- appearance similarity와 상대 위치 임베딩을 결합한 작은 MLP를 포함하는 기하학 항을 갖춘 다중 헤드 주의(attention) 형식을 사용합니다.
- 실행 가능한 고품질 보조 표현의 관리 가능한 집합을 선택하기 위해 top-k 키 샘플링을 도입합니다.
- 기하학 항을 효율적으로 계산하기 위해 공유 상대 위치 임베딩을 적용하여 시간/메모리 비용을 줄입니다.
- 분류(센터 보조)와 회귀(코너 보조)에 대해 각각의 BVR 가지를 두어 각 작업을 강화합니다.
- 입력 특징을 강화된 특징으로 대체하는 방식으로 분류/회귀에 대해 검출기에 BVR을 인-플레이스 통합합니다.
실험 결과
연구 질문
- RQ1이질적인 객체/부분 표현들(앵커, 센터, 코너)이 주 검출 흐름을 변경하지 않고 탐지를 향상시키도록 효과적으로 bridged될 수 있을까?
- RQ2비용을 제어하면서 교차 표현 상호작용을 계산하는 효율적 메커니즘은 무엇인가(키 샘플링, 공유 위치 임베딩)?
- RQ3분류와 회귀를 위한 별도의 브리징 가지가 위치화 및 인식에 더 나은 결과를 내는가?
- RQ4BVR이 COCO에서 다양한 검출기(일단계, 이단계, 앵커 기반, 앵커 프리)에 얼마나 넓게 적용되어 개선을 이룰 수 있는가?
주요 결과
- BVR은 RetinaNet, Faster R-CNN, FCOS, ATSS를 약 1.5–3.0 AP 만큼 개선합니다.
- 피라미드 레벨 전체에서 공유 키를 사용하는 것이 독립 키보다 더 큰 이득을 주며, 50개의 키가 강한 결과를 보입니다.
- 서브-픽셀 센터/코너 표현은 특히 위치 추정에서 AP를 크게 향상시킵니다.
- 공유 상대 위치 임베딩은 메모리와 FLOPs를 크게 줄이면서 정확도는 유지되거나 향상시키는 데 크게 기여합니다(예: 42× 메모리 절감).
- 분류(센터)와 회귀(코너)에 대해 별도의 BVR 모듈이 공유 설정보다 우수합니다.
- 강력한 ATSS 백본에 BVR을 적용하면 COCO test-dev에서 52.7 AP에 도달합니다(다중 스케일 테스트와 함께).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.