[논문 리뷰] Learning RoI Transformer for Detecting Oriented Objects in Aerial Images
요약: 이 논문은 RoI Transformer를 도입하며, 수평 RoI로부터 회전 RoI를 학습하고 회전 불변 특징을 추출하여 항공 이미지에서 방향 객체를 탐지하며, 효율적 추론으로 최첨단 성능을 달성한다.
Object detection in aerial images is an active yet challenging task in computer vision because of the birdview perspective, the highly complex backgrounds, and the variant appearances of objects. Especially when detecting densely packed objects in aerial images, methods relying on horizontal proposals for common object detection often introduce mismatches between the Region of Interests (RoIs) and objects. This leads to the common misalignment between the final object classification confidence and localization accuracy. Although rotated anchors have been used to tackle this problem, the design of them always multiplies the number of anchors and dramatically increases the computational complexity. In this paper, we propose a RoI Transformer to address these problems. More precisely, to improve the quality of region proposals, we first designed a Rotated RoI (RRoI) learner to transform a Horizontal Region of Interest (HRoI) into a Rotated Region of Interest (RRoI). Based on the RRoIs, we then proposed a Rotated Position Sensitive RoI Align (RPS-RoI-Align) module to extract rotation-invariant features from them for boosting subsequent classification and regression. Our RoI Transformer is with light weight and can be easily embedded into detectors for oriented object detection. A simple implementation of the RoI Transformer has achieved state-of-the-art performances on two common and challenging aerial datasets, i.e., DOTA and HRSC2016, with a neglectable reduction to detection speed. Our RoI Transformer exceeds the deformable Position Sensitive RoI pooling when oriented bounding-box annotations are available. Extensive experiments have also validated the flexibility and effectiveness of our RoI Transformer. The results demonstrate that it can be easily integrated with other detector architectures and significantly improve the performances.
연구 동기 및 목표
- 수평 RoI로 인해 정합이 어긋나는 항공 영상에서 방향성 및 빽빽하게 배치된 객체의 정확한 탐지를 목표로 한다.
- HRoIs를 RRoIs로 변환하고 회전 불변 특징을 추출하기 위한 가볍고 엔드-투-엔드 학습 가능한 RoI Transformer를 제안한다.
- 확장된 회전 앵커 접근법과 비교해 계산 복잡도를 줄이면서 정확도를 향상시키는 것을 목표로 한다.
제안 방법
- 소형 전결합 회귀 헤드를 통해 HRoIs를 회전 RoI로 변환하는 RRoI 학습자(RRoI Learner)를 도입한다.
- RRoIs에서 회전 불변 특징을 추출하기 위해 회전된 위치 민감 RoI Align을 적용한다.
- RoI 단위 계산을 효율적으로 유지하기 위해 경량형 헤드 아키텍처를 사용한다.
- 감독 신호를 향상시키기 위해 RRoIs와 RRoTs(회전된 실제값) 간의 IoU 기반 매칭으로 학습한다.
- 기존 검출기와의 통합을 위한 엔드-투-엔드로 미분 가능한 RoI Transformer를 제공한다.
실험 결과
연구 질문
- RQ1수평 RoI에서 회전 RoIs로의 학습된 변환이 항공 영상에서 방향 객체와의 정합을 개선하는가?
- RQ2회전된 PS RoI Align이 회전 객체의 분류 및 위치 추정에서 회전 불변 특징을 제공하는가?
- RQ3RoI Transformer가 DOTA 및 HRSC2016에서 변형 가능형 RoI 풀링 및 기준 경량형 검출기와 비교해 정확도와 효율성에서 어떤 차이를 보이는가?
주요 결과
- RoI Transformer는 DOTA 및 HRSC2016 데이터셋에서 최첨단 또는 경쟁력 있는 mAP를 보인다.
- 기본 Light-Head OBB에 RoI Transformer를 추가하면 제거 실험에서 최대 4.87포인트의 mAP 향상을 보인다.
- RoI Transformer는 빽빽하게 배치된 물체와 길고 가느다란 물체의 처리를 더 잘 수행하며, 이전 방법들에 비해 상당한 이점을 보여준다(예: DOTA의 선박).
- 변형 가능한 PS RoI 풀링과 비교했을 때, RoI Transformer는 더 가벼운 회귀 타깃과 회전 인식 정렬로 더 높은 정확도를 제공한다.
- 추론 속도와 메모리는 TITAN X를 사용한 1024x1024에서 이미지당 약 0.17초의 속도 등 경쟁 회전된 ROI 접근법에 비해 우수한 편이다.
- RoI Transformer는 다른 검출기 아키텍처에 쉽게 삽입되어 방향 객체 탐지를 개선할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.