[논문 리뷰] Deep Direct Regression for Multi-Oriented Scene Text Detection
이 논문은 다방향 장면 텍스트 탐지를 위한 직접 회귀 프레임워크를 제시하며, 제안(requirements)과 앵커를 피하고 ICDAR2015 Incidental Text에서 최첨단 결과를 달성하고 다른 벤치마크에서도 강력한 성능을 보입니다.
In this paper, we first provide a new perspective to divide existing high performance object detection methods into direct and indirect regressions. Direct regression performs boundary regression by predicting the offsets from a given point, while indirect regression predicts the offsets from some bounding box proposals. Then we analyze the drawbacks of the indirect regression, which the recent state-of-the-art detection structures like Faster-RCNN and SSD follows, for multi-oriented scene text detection, and point out the potential superiority of direct regression. To verify this point of view, we propose a deep direct regression based method for multi-oriented scene text detection. Our detection framework is simple and effective with a fully convolutional network and one-step post processing. The fully convolutional network is optimized in an end-to-end way and has bi-task outputs where one is pixel-wise classification between text and non-text, and the other is direct regression to determine the vertex coordinates of quadrilateral text boundaries. The proposed method is particularly beneficial for localizing incidental scene texts. On the ICDAR2015 Incidental Scene Text benchmark, our method achieves the F1-measure of 81%, which is a new state-of-the-art and significantly outperforms previous approaches. On other standard datasets with focused scene texts, our method also reaches the state-of-the-art performance.
연구 동기 및 목표
- 탐지에 대한 직접 회귀와 간접 회귀를 도입/분석하고, 다방향 텍스트에 대해 직접 회귀가 유리하다고 주장합니다.
- 제안 없이 이미지 포인트에서 사각형 텍스트 경계를 출력하는 깊은 직접 회귀 프레임워크를 제안합니다.
- 일반화 가능한 엔드투엔드 학습을 가능하게 하는 두 가지 가지 네트워크(텍스트/비텍스트 분류 및 정점 회귀)와 한 단계 후처리 단계(Recalled NMS)를 제시합니다.
- ICDAR2015 Incidental Scene Text에서 최첨단 성능 및 MSRA-TD500 및 ICDAR2013에서 경쟁력 있는 결과를 보여줍니다.
제안 방법
- 경계가 제안에서부터가 아니라 포인트에서 회귀되는 직접 회귀를 정의합니다.
- 다중 규모 특징 융합을 갖춘 완전 합성 신경망을 사용하여 텍스트/비텍스트 맵과 사각형 정점 오프셋 맵을 생성합니다.
- 클래스 분류를 위한 힌지 손실과 회귀를 위한 부드러운 L1 손실을 결합한 다중 작업 손실 및 안정적인 회귀 값을 위한 Scale&Shift 모듈로 학습합니다.
- Dense한 사각형을 정제하고 합치기 위해 Recalled Non-Maximum Suppression을 적용합니다.
- 다중 스케일 슬라이딩 윈도우 전략과 텍스트 스코어 맵의 임계값 설정으로 후보 영역을 얻습니다.
실험 결과
연구 질문
- RQ1직접 회귀가 제안에 의존하는 간접 회귀 방식에 비해 다방향 텍스트 탐지를 개선하는가?
- RQ2라인 그룹화나 단어 분할 휴리스틱을 사용하지 않고도 단일 엔드투엔드 네트워크가 텍스트 영역의 사각형 경계를 예측할 수 있는가?
- RQ3살대로운 텍스트 장면에서 기존 NMS 대비 제안된 Recalled NMS가 정밀도와 재현율에 어떤 영향을 미치는가?
- RQ4표준 장면 텍스트 벤치마크(ICDAR2015 Incidental, MSRA-TD500, ICDAR2013)에 대한 방법의 성능은 기존 최첨단과 비교해 어떤가?
주요 결과
| 데이터세트 | 알고리즘 | 정밀도 | 재현율 | F-측정 | 시간 |
|---|---|---|---|---|---|
| ICDAR2015 Incidental | Proposed (R-NMS) | 0.82 | 0.80 | 0.81 | – |
| ICDAR2015 Incidental | Proposed (T-NMS) | 0.81 | 0.80 | 0.80 | – |
| ICDAR2015 Incidental | Liu et al. [15] | 0.73 | 0.68 | 0.71 | – |
| ICDAR2015 Incidental | Tian et al. [21] | 0.74 | 0.52 | 0.61 | – |
| ICDAR2015 Incidental | Zhang et al. [26] | 0.71 | 0.43 | 0.54 | – |
| ICDAR2015 Incidental | StradVision2 [11] | 0.77 | 0.37 | 0.50 | – |
| ICDAR2015 Incidental | StradVision1 [11] | 0.53 | 0.46 | 0.47 | – |
| ICDAR2015 Incidental | NJU-Text [11] | 0.70 | 0.36 | 0.47 | – |
| ICDAR2015 Incidental | AJOU [11] | 0.47 | 0.47 | 0.47 | – |
| ICDAR2015 Incidental | HUST_MCLAB [11] | 0.44 | 0.38 | 0.41 | – |
| MSRA-TD500 | Proposed | 0.77 | 0.70 | 0.74 | – |
| MSRA-TD500 | Zhang et al. [26] | 0.83 | 0.67 | 0.74 | – |
| MSRA-TD500 | Yin et al. [24] | 0.81 | 0.63 | 0.71 | – |
| MSRA-TD500 | Kang et al. [10] | 0.71 | 0.62 | 0.66 | – |
| MSRA-TD500 | Yao et al. [23] | 0.63 | 0.63 | 0.60 | – |
| ICDAR2013 Focused | Proposed | 0.92 | 0.81 | 0.86 | 0.9s |
| ICDAR2013 Focused | Liao et al. [13] | 0.88 | 0.83 | 0.85 | 0.73s |
| ICDAR2013 Focused | Zhang et al. [26] | 0.88 | 0.78 | 0.83 | 2.1s |
| ICDAR2013 Focused | He et al. [6] | 0.93 | 0.73 | 0.82 | – |
| ICDAR2013 Focused | Tian et al. [20] | 0.85 | 0.76 | 0.80 | 1.4s |
- Recalled NMS를 사용한 ICDAR2015 Incidental Scene Text에서 81% F1을 달성하며 기존 방법들을 능가합니다.
- ICDAR2015에서 Recalled NMS를 적용한 제안 방법은 0.82/0.80/0.81 정밀도/재현율/F1에 도달하여 간접 회귀 기반선보다 우수합니다.
- MSRA-TD500에서 본 방법은 0.77/0.70/0.74(정밀도/재현율/F-측정)를 달성합니다.
- ICDAR2013 Focused Scene Text에서 본 방법은 0.92/0.81/0.86(정밀도/재현율/F-측정)으로 0.9초 per 이미지로 보고되었습니다.
- 이 접근법은 MSRA-TD500에서 영어 및 중국어 텍스트 모두에 일반화되며, 발생하는 텍스트 및 원근 왜곡에 대한 강건성을 보여줍니다.
- 직접 회귀 프레임워크는 취약한 제안 생성 없이 엔드투엔드 최적화와 강력한 중심선 기반 양성 영역 형식의 이점을 얻습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.