[논문 리뷰] Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation
코너 포인트를 통해 텍스트를 로컬라이즈하고 위치-민감 분할로 후보 박스를 점수화하는 통합 CNN 기반 탐지기로, 임의 방향성, 길고 다중 스크립트 텍스트를 무거운 후처리 없이 견고하게 탐지할 수 있다.
Previous deep learning based state-of-the-art scene text detection methods can be roughly classified into two categories. The first category treats scene text as a type of general objects and follows general object detection paradigm to localize scene text by regressing the text box locations, but troubled by the arbitrary-orientation and large aspect ratios of scene text. The second one segments text regions directly, but mostly needs complex post processing. In this paper, we present a method that combines the ideas of the two types of methods while avoiding their shortcomings. We propose to detect scene text by localizing corner points of text bounding boxes and segmenting text regions in relative positions. In inference stage, candidate boxes are generated by sampling and grouping corner points, which are further scored by segmentation maps and suppressed by NMS. Compared with previous methods, our method can handle long oriented text naturally and doesn't need complex post processing. The experiments on ICDAR2013, ICDAR2015, MSRA-TD500, MLT and COCO-Text demonstrate that the proposed algorithm achieves better or comparable results in both accuracy and efficiency. Based on VGG16, it achieves an F-measure of 84.3% on ICDAR2015 and 81.5% on MSRA-TD500.
연구 동기 및 목표
- 다양한 방향성과 가변 종횡비를 가진 현장 텍스트의 견고한 탐지를 동기화합니다.
- 코너-포인트 위치추정과 영역 기반 분할을 결합하여 정확도와 효율성을 향상시킵니다.
- 후처리의 부담을 줄이기 위해 분할 맵으로 후보 박스를 점수화합니다.
- 탐지와 분할 작업의 공동 최적화를 위한 엔드-투-엔드 학습을 가능하게 합니다.
제안 방법
- 다중 스케일 CNN 백본을 통해 기본 상자(default boxes)로 코너 포인트(좌상단, 우상단, 우하단, 좌하단)를 검출합니다.
- 탐지된 코너 포인트를 샘플링하고 그룹화하여 회전된 텍스트 제안을 후보 바운딩 박스로 생성합니다.
- 포지션-센시티브 분할 맵과 Rotated Position-Sensitive ROI Average pooling을 사용하여 후보 박스를 점수화합니다.
- L = L_conf/N_c + λ1 L_loc/N_c + λ2 L_seg/N_s인 코너 포인트 탐지, 위치추정, 분할에 대한 결합 손실로 훈련합니다.
- 임의 방향을 처리하기 위해 점수화 과정에서 Rotated Position-Sensitive ROI pooling 모듈을 사용합니다.
- SynthText 사전학습 후 대상 데이터셋에서 파인튜닝하는 끝-to-끝 학습을 적용합니다.
실험 결과
연구 질문
- RQ1코너-포인트 위치추정과 영역 기반 분할의 결합이 다중 방향 텍스트에 대해 직접 회귀나 순수 분할 방법보다 성능이 우수한가요?
- RQ2제안된 Rotated Position-Sensitive ROI pooling이 회전된 텍스트 제안의 점수화에 어떤 영향을 미치나요?
- RQ3코너 탐지와 분할의 공동 최적화가 벤치마크에서 정확도와 속도에 어떤 영향을 주나요?
- RQ4장문의 텍스트 줄과 다중 스크립트 텍스트에 대한-heavy post-processing 없이도 확장 가능한가요?
주요 결과
| 데이터셋 | F-measure |
|---|---|
| ICDAR2015 | 84.3% |
| MSRA-TD500 | 81.5% |
| MLT | 72.4% |
- 제안 방법으로 ICDAR2015에서 F-measure 84.3%, MSRA-TD500에서 81.5%, MLT에서 72.4%를 달성했습니다.
- 단일 스케일 ICDAR2015 결과: F-measure 80.7%이며(다중 스케일 84.3%).
- 장기 지향 텍스트와 다중 언어 텍스트 탐지는 MSRA-TD500에서 최첨단 성능을 달성하고 MLT 및 COCO-Text에서 경쟁력 있는 성능을 보입니다.
- Titan X GPU에서 512x512 해상도로 초당 10.4장 이상 처리하여 경쟁력 있는 효율성을 나타냅니다.
- 기준선 회귀 기반 탐지기는 코너-포인트 방법보다 성능이 떨어집니다(예: ICDAR2015에서 53.3 F-measure 대 80.7).
- 이 접근법은 COCO-Text에서 학습 없이도 42.5% F-measure를 달성하는 등 일반화가 강합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.