Skip to main content
QUICK REVIEW

[논문 리뷰] DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images

Zhuoyao Zhong, Lianwen Jin|arXiv (Cornell University)|2016. 05. 24.
Handwritten Text Recognition Techniques참고 문헌 26인용 수 104
한 줄 요약

DeepText는 Inception-RPN과 함께 단어 영역 제안을 공동으로 생성하고 다중 수준 ROI 풀링과 애매한 텍스트 감독을 사용하여 텍스트를 탐지하는 엔드 투 엔드 CNN 프레임워크를 제시하며, ICDAR 2011 및 2013에서 최첨단 F-측정치를 달성한다.

ABSTRACT

In this paper, we develop a novel unified framework called DeepText for text region proposal generation and text detection in natural images via a fully convolutional neural network (CNN). First, we propose the inception region proposal network (Inception-RPN) and design a set of text characteristic prior bounding boxes to achieve high word recall with only hundred level candidate proposals. Next, we present a powerful textdetection network that embeds ambiguous text category (ATC) information and multilevel region-of-interest pooling (MLRP) for text and non-text classification and accurate localization. Finally, we apply an iterative bounding box voting scheme to pursue high recall in a complementary manner and introduce a filtering algorithm to retain the most suitable bounding box, while removing redundant inner and outer boxes for each text instance. Our approach achieves an F-measure of 0.83 and 0.85 on the ICDAR 2011 and 2013 robust text detection benchmarks, outperforming previous state-of-the-art results.

연구 동기 및 목표

  • 다양한 배경과 다양한 텍스트 특성으로 자연 풍경에서 견고한 텍스트 탐지를 촉진한다.
  • 높은 재현율의 단어 제안을 생성하고 텍스트 영역을 정확하게 분류/탐지하기 위한 통합 프레임워크를 개발한다.
  • 재현율을 유지하면서 제안 후보를 수백 개로 축소한다.
  • 애매한 텍스트 라벨링과 다중 수준 ROI 풀링을 통해 탐지 정밀도를 향상시킨다.
  • ICDAR 2011 및 2013 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

  • 텍스트 특성 사전 바운딩 박스(위치당 24개)를 갖고 Conv5_3 위에서 다중 스케일, 다중 필터 커널을 슬라이딩하도록 Inception-RPN을 설계한다.
  • 각 사전 박스에 대해 분류 및 회귀 헤드를 사용하여 텍스트성 점수와 정제된 좌표를 출력한다.
  • Ambiguous Text Category (ATC) 라벨링을 도입하여 텍스트 제안과 비텍스트 제안을 보다 잘 구분한다.
  • Conv4_3 및 Conv5_3에 대해 다중 수준 ROI 풀링(MLRP)을 적용하고 특징을 융합한 뒤 탐지 헤드에 공급한다.
  • 분류 및 회귀 항을 결합한 다중 작업 손실로 엔드 투 엔드 학습을 수행한다.
  • 텍스트 인스턴스당 중복된 내부/외부 박스를 제거하기 위한 반복적 바운딩 박스 보팅과 필터링 단계를 구현한다.

실험 결과

연구 질문

  • RQ1하나의 통합 CNN 프레임워크가 자연 풍경 텍스트에 대해 수백 개의 후보를 갖는 높은 재현율의 단어 제안을 생성할 수 있는가?
  • RQ2ATC 정보와 다중 수준 ROI 풀링이 텍스트 대 비텍스트 구분 및 로컬라이제이션을 향상시키는가?
  • RQ3반복적 바운딩 박스 보팅 및 후처리가 표준 벤치마크에서 정밀도와 재현율에 미치는 영향은?
  • RQ4ICDAR 2011 및 2013 강건 텍스트 탐지 벤치마크에서 DeepText의 비교 성능은 무엇인가?
  • RQ5공유된 CNN 특징을 사용한 제안 생성과 텍스트 탐지를 위한 엔드 투 엔드 학습이 가능한가?

주요 결과

  • Inception-RPN-TCPB는 상위 300 제안 사용 시 특정 IoU 임계값에서 약 90% 재현율로 수백 개의 제안으로 높은 재현율을 달성한다.
  • Ambiguous Text Category (ATC) 및 Multi-Level ROI Pooling (MLRP) 도입으로 진양성 증가 및 위양성 감소(TP 88.74% vs 85.61%, FP 10.38% vs 11.20% on ICDAR 2013 baseline).
  • 공유된 CNN 특징과 다중 작업 손실을 갖춘 엔드 투 엔드 학습은 제안 및 탐지 작업의 효과적인 공동 최적화를 보여준다.
  • DeepText는 ICDAR 2011에서 F-measure 0.83, ICDAR 2013에서 0.85를 달성하여 동일한 학습 데이터 제약하에 여러 선행 방법을 능가한다.
  • 처리 시간은 단일 GPU(K40)에서 이미지당 1.7초이다.
  • 반복적 바운딩 박스 보팅과 필터링은 중복 박스를 감소시키고 정밀도를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.