[논문 리뷰] EAST: An Efficient and Accurate Scene Text Detector
EAST는 전체 이미지에서 회전된 사각형이나 다변형으로 텍스트 영역을 직접 예측하는 두 단계의 완전 합성곱 신경망(text detector)을 제안하며, 높은 속도로 최첨단 정확도를 달성한다.
Previous approaches for scene text detection have already achieved promising performances across various benchmarks. However, they usually fall short when dealing with challenging scenarios, even when equipped with deep neural network models, because the overall performance is determined by the interplay of multiple stages and components in the pipelines. In this work, we propose a simple yet powerful pipeline that yields fast and accurate text detection in natural scenes. The pipeline directly predicts words or text lines of arbitrary orientations and quadrilateral shapes in full images, eliminating unnecessary intermediate steps (e.g., candidate aggregation and word partitioning), with a single neural network. The simplicity of our pipeline allows concentrating efforts on designing loss functions and neural network architecture. Experiments on standard datasets including ICDAR 2015, COCO-Text and MSRA-TD500 demonstrate that the proposed algorithm significantly outperforms state-of-the-art methods in terms of both accuracy and efficiency. On the ICDAR 2015 dataset, the proposed algorithm achieves an F-score of 0.7820 at 13.2fps at 720p resolution.
연구 동기 및 목표
- 간단하고 엔드-투-엔드 파이프라인을 통해 장면 텍스트 탐지를 수행하고 여러 중간 단계를 피하는 동기를 부여한다.
- 임의의 방향으로 단어 또는 텍스트라인 수준의 영역을 직접 예측한다.
- 지효한 처리를 통해 회전된 상자 또는 사각형으로 유연한 기하 outputs를 가능하게 한다.
제안 방법
- 가벼운 Fully Convolutional Network를 사용해 픽셀 단위 텍스트 점수와 기하 맵을 예측한다.
- 두 가지 기하 표현:RBOX(회전 가능한 축 정렬 상자)와 QUAD(사각형) 및 해당 손실 함수를 지원한다.
- 점수 맵에 대한 축소된 사각형으로 학습 라벨을 생성하고 픽셀별 기하 타깃을 계산한다.
- 점수 로스(균형 교차 엔트로피)와 기하 로스(RBOX의 IoU 기반, QUAD의 스케일 정규화된 평활-L1) 조합으로 학습한다.
- 근처 예측을 효과적으로 합치기 위해 지역성 기반 NMS를 적용한다(O(n) 시간으로 실용적으로).
실험 결과
연구 질문
- RQ1중간 단계 없이도 2단계 FCN 파이프라인이 텍스트 영역을 직접 예측하고 최첨단 정확도를 달성할 수 있는가?
- RQ2다양한 데이터셋에서 서로 다른 기하 표현(RBOX vs QUAD)이 정확도와 효율성에 어떤 차이를 보이는가?
- RQ3스케일에 걸쳐 강건한 픽셀 단위 텍스트 기하 예측을 제공하는 로스 디자인 및 학습 전략은 무엇인가?
주요 결과
- ICDAR 2015, COCO-Text, 및 MSRA-TD500 벤치마크에서 높은 정확도와 속도를 달성한다.
- ICDAR 2015에서 13.2 FPS(720p)에서 F-score 0.7820; 다중 스케일 F-score 0.8072.
- COCO-Text F-score 0.3945; MSRA-TD500 F-score 0.7608.
- 엔드투엔드 학습이 가능한 두 단계 파이프라인이 기존 방법들보다 정확도 및 속도 측면에서 우수하다.
- 유연한 기하 출력:RBOX와 QUAD가 서로 다른 기본 네트워크(PVANET, PVANET2x, VGG16)에서 경쟁력 있는 결과를 낸다.
- Locally aware NMS가 후처리 비용을 크게 줄이면서도 정확도를 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.