Skip to main content
QUICK REVIEW

[논문 리뷰] Real-time Scene Text Detection with Differentiable Binarization

Minghui Liao, Zhaoyi Wan|arXiv (Cornell University)|2019. 11. 20.
Handwritten Text Recognition Techniques참고 문헌 40인용 수 48
한 줄 요약

본 논문은 Differentiable Binarization (DB)를 제시하여 이진화를 분할(segmentation) 네트워크에 통합하고, 실시간의 임의 형태 장면 텍스트 탐지를 위해 엔드-투-엔드 학습을 가능하게 하며, 최첨단 정확도와 속도를 달성한다.

ABSTRACT

Recently, segmentation-based methods are quite popular in scene text detection, as the segmentation results can more accurately describe scene text of various shapes such as curve text. However, the post-processing of binarization is essential for segmentation-based detection, which converts probability maps produced by a segmentation method into bounding boxes/regions of text. In this paper, we propose a module named Differentiable Binarization (DB), which can perform the binarization process in a segmentation network. Optimized along with a DB module, a segmentation network can adaptively set the thresholds for binarization, which not only simplifies the post-processing but also enhances the performance of text detection. Based on a simple segmentation network, we validate the performance improvements of DB on five benchmark datasets, which consistently achieves state-of-the-art results, in terms of both detection accuracy and speed. In particular, with a light-weight backbone, the performance improvements by DB are significant so that we can look for an ideal tradeoff between detection accuracy and efficiency. Specifically, with a backbone of ResNet-18, our detector achieves an F-measure of 82.8, running at 62 FPS, on the MSRA-TD500 dataset. Code is available at: https://github.com/MhLiao/DB

연구 동기 및 목표

  • 비정형 텍스트 모양(곡선형, 다방향)에 대한 분할 기반의 장면 텍스트 탐지를 동기 부여한다.
  • 이진화를 네트워크 학습에 통합하여 무거운 후처리를 제거한다.
  • 가벼운 백본으로 실시간 추론을 달성하면서도 높은 정확도를 유지한다.
  • 학습 가능한 임계 맵을 통한 적응 임계화(adaptive thresholding)를 탐구하여 텍스트와 배경 간 구분을 향상시킨다.

제안 방법

  • 학습 가능한 임계 맵 T를 사용하는 미분 가능한 함수로 이진화를 근사하기 위해 Differentiable Binarization (DB)를 제안한다.
  • 확률 맵 P와 임계 맵 T를 모두 예측하도록 분할 네트워크를 학습시키고, P와 T에서 근사 이진 맵 B̂를 계산한다.
  • DB 함수에 역전파하여 텍스트-배경 구분을 더욱 선명하게 하고 서로 근접한 텍스트 인스턴스를 구분한다.
  • 비정형 텍스트 형태에 대한 수용 영역을 개선하기 위해 변형 가능한 컨볼루션(backbone)을 사용한다.
  • P와 T에 대한 감독 신호를 만들기 위해 다각형 축소/확장 연산을 통해 학습 라벨을 생성한다.
  • 추론 시 효율성을 위해 임계 분기(threshold branch)를 선택적으로 제거하고 확률 맵 또는 이진 맵에서 박스를 형성한다.
  • 백본(ResNet-18/50), DB 존재 여부, 임계 감독 및 변형 가능한 컨볼루션에 대한 분석을 수행하여 이득을 정량화한다.

실험 결과

연구 질문

  • RQ1분할 네트워크에 미분 가능한 이진화 단계를 통합하면 임의 형태의 텍스트에 대한 텍스트 탐지 정확도를 향상시킬 수 있는가?
  • RQ2고정 임계 이진화와 비교하여 학습 가능한 적응 임계화가 텍스트와 배경 간 구분을 향상시키는가?
  • RQ3제안된 DB 모듈이 ResNet-18과 같은 경량 백본과 ResNet-50과 같은 중량급 백본에서 속도와 정확도에 어떤 영향을 미치는가?
  • RQ4다중 장면 텍스트 벤치마크에서 DB와의 엔드-투-엔드 학습 가능성이 실시간 추론과 호환되는가?

주요 결과

  • DB는 다섯 벤치마크에서 일관된 정확도 향상을 제공한다(수평, 다방향 및 곡선 텍스트).
  • ResNet-18과 함께 이 방법은 MSRA-TD500에서 62 FPS를 달성하고 데이터 세트 전반에서 높은 F-지표를 보인다.
  • 추론 시 성능 저하 없이 DB를 제거할 수 있어 속도를 유지한다.
  • 변형 가능한 컨볼루션은 백본 및 데이터셋에 따라 F-측정값을 1.5–5.0 포인트 증가시킨다.
  • 임계 맵에 대한 감독은 추가 개선을 가져다준다(예: MLT-2017에서).
  • DB-ResNet-50은 곡선 및 다언어 텍스트 데이터셋에서 선행 방법 대비 주목할 만한 속도 이점을 가진 최댓값 또는 경쟁력 있는 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.