[논문 리뷰] DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images
DeepText는 Inception-RPN과 함께 단어 영역 제안을 공동으로 생성하고 다중 수준 ROI 풀링과 애매한 텍스트 감독을 사용하여 텍스트를 탐지하는 엔드 투 엔드 CNN 프레임워크를 제시하며, ICDAR 2011 및 2013에서 최첨단 F-측정치를 달성한다.
In this paper, we develop a novel unified framework called DeepText for text region proposal generation and text detection in natural images via a fully convolutional neural network (CNN). First, we propose the inception region proposal network (Inception-RPN) and design a set of text characteristic prior bounding boxes to achieve high word recall with only hundred level candidate proposals. Next, we present a powerful textdetection network that embeds ambiguous text category (ATC) information and multilevel region-of-interest pooling (MLRP) for text and non-text classification and accurate localization. Finally, we apply an iterative bounding box voting scheme to pursue high recall in a complementary manner and introduce a filtering algorithm to retain the most suitable bounding box, while removing redundant inner and outer boxes for each text instance. Our approach achieves an F-measure of 0.83 and 0.85 on the ICDAR 2011 and 2013 robust text detection benchmarks, outperforming previous state-of-the-art results.
연구 동기 및 목표
- 다양한 배경과 다양한 텍스트 특성으로 자연 풍경에서 견고한 텍스트 탐지를 촉진한다.
- 높은 재현율의 단어 제안을 생성하고 텍스트 영역을 정확하게 분류/탐지하기 위한 통합 프레임워크를 개발한다.
- 재현율을 유지하면서 제안 후보를 수백 개로 축소한다.
- 애매한 텍스트 라벨링과 다중 수준 ROI 풀링을 통해 탐지 정밀도를 향상시킨다.
- ICDAR 2011 및 2013 벤치마크에서 최첨단 성능을 입증한다.
제안 방법
- 텍스트 특성 사전 바운딩 박스(위치당 24개)를 갖고 Conv5_3 위에서 다중 스케일, 다중 필터 커널을 슬라이딩하도록 Inception-RPN을 설계한다.
- 각 사전 박스에 대해 분류 및 회귀 헤드를 사용하여 텍스트성 점수와 정제된 좌표를 출력한다.
- Ambiguous Text Category (ATC) 라벨링을 도입하여 텍스트 제안과 비텍스트 제안을 보다 잘 구분한다.
- Conv4_3 및 Conv5_3에 대해 다중 수준 ROI 풀링(MLRP)을 적용하고 특징을 융합한 뒤 탐지 헤드에 공급한다.
- 분류 및 회귀 항을 결합한 다중 작업 손실로 엔드 투 엔드 학습을 수행한다.
- 텍스트 인스턴스당 중복된 내부/외부 박스를 제거하기 위한 반복적 바운딩 박스 보팅과 필터링 단계를 구현한다.
실험 결과
연구 질문
- RQ1하나의 통합 CNN 프레임워크가 자연 풍경 텍스트에 대해 수백 개의 후보를 갖는 높은 재현율의 단어 제안을 생성할 수 있는가?
- RQ2ATC 정보와 다중 수준 ROI 풀링이 텍스트 대 비텍스트 구분 및 로컬라이제이션을 향상시키는가?
- RQ3반복적 바운딩 박스 보팅 및 후처리가 표준 벤치마크에서 정밀도와 재현율에 미치는 영향은?
- RQ4ICDAR 2011 및 2013 강건 텍스트 탐지 벤치마크에서 DeepText의 비교 성능은 무엇인가?
- RQ5공유된 CNN 특징을 사용한 제안 생성과 텍스트 탐지를 위한 엔드 투 엔드 학습이 가능한가?
주요 결과
- Inception-RPN-TCPB는 상위 300 제안 사용 시 특정 IoU 임계값에서 약 90% 재현율로 수백 개의 제안으로 높은 재현율을 달성한다.
- Ambiguous Text Category (ATC) 및 Multi-Level ROI Pooling (MLRP) 도입으로 진양성 증가 및 위양성 감소(TP 88.74% vs 85.61%, FP 10.38% vs 11.20% on ICDAR 2013 baseline).
- 공유된 CNN 특징과 다중 작업 손실을 갖춘 엔드 투 엔드 학습은 제안 및 탐지 작업의 효과적인 공동 최적화를 보여준다.
- DeepText는 ICDAR 2011에서 F-measure 0.83, ICDAR 2013에서 0.85를 달성하여 동일한 학습 데이터 제약하에 여러 선행 방법을 능가한다.
- 처리 시간은 단일 GPU(K40)에서 이미지당 1.7초이다.
- 반복적 바운딩 박스 보팅과 필터링은 중복 박스를 감소시키고 정밀도를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.