[논문 리뷰] R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection
R2CNN extends Faster R-CNN with rotational text proposals by using axis-aligned RPN boxes and orientation-aware pooling to detect arbitrarily oriented scene text, followed by inclined box regression and NMS.
In this paper, we propose a novel method called Rotational Region CNN (R2CNN) for detecting arbitrary-oriented texts in natural scene images. The framework is based on Faster R-CNN [1] architecture. First, we use the Region Proposal Network (RPN) to generate axis-aligned bounding boxes that enclose the texts with different orientations. Second, for each axis-aligned text box proposed by RPN, we extract its pooled features with different pooled sizes and the concatenated features are used to simultaneously predict the text/non-text score, axis-aligned box and inclined minimum area box. At last, we use an inclined non-maximum suppression to get the detection results. Our approach achieves competitive results on text detection benchmarks: ICDAR 2015 and ICDAR 2013.
연구 동기 및 목표
- 자연 풍경에서 임의 방향의 텍스트를 탐지합니다.
- 다양한 방향을 포괄하기 위해 축 정렬된 제안을 활용합니다.
- 다중 크기 풀링된 특징을 융합하여 텍스트/비텍스트 및 방향을 예측합니다.
- 정확한 텍스트 위치화를 위해 기울어진 최소 면적 박스를 생성합니다.
제안 방법
- 다른 방향을 가진 축 정렬 텍스트 제안을 생성하기 위해 Region Proposal Network (RPN)을 사용합니다.
- 각 축 정렬 제안에 대해 다중 풀링 크기로 풀링된 특징을 추출하고 이를 연결합니다.
- 연결된 특징에서 텍스트/비텍스트 점수, 축 정렬 경계 상자, 그리고 기울어진 최소 면적 상자를 예측합니다.
- 최종 탐지를 얻기 위해 기울어진 비최대 억제(NMS)를 적용합니다.
실험 결과
연구 질문
- RQ1축 정렬 RPN 제안과 방향 특화 풀링을 결합해 임의 방향의 텍스트를 신뢰할 수 있게 탐지할 수 있을까요?
- RQ2다중 크기 풀링된 특징의 연결이 텍스트/비텍스트 분류 및 방향 회귀를 향상시키나요?
- RQ3기울어진 비최대 억제가 회전된 텍스트 상자의 위치 정확도를 향상시키나요?
주요 결과
- ICDAR 2015 및 ICDAR 2013 벤치마크에서 경쟁력 있는 결과를 달성합니다.
- Faster R-CNN 프레임워크 내에서 회전 텍스트 탐지의 효과를 보여줍니다.
- 방향 변화를 포착하기 위한 다중 크기 풀링 특징의 연결 이점을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.