Skip to main content
QUICK REVIEW

[논문 리뷰] Shape Robust Text Detection with Progressive Scale Expansion Network

Wenhai Wang, Enze Xie|arXiv (Cornell University)|2019. 03. 28.
Handwritten Text Recognition Techniques인용 수 66
한 줄 요약

PSENet은 텍스트 인스턴스당 다중 커널 스케일을 생성하고 BFS로 점진적으로 확장하여 근접한 텍스트를 구분함으로써 임의의 형태를 가진 텍스트를 탐지합니다. 곡선 텍스트 벤치마크(예: CTW1500)에서 최첨단 결과를 달성하고 Total-Text 및 ICDAR 데이터셋에서 강력한 성능을 보입니다.

ABSTRACT

Scene text detection has witnessed rapid progress especially with the recent development of convolutional neural networks. However, there still exists two challenges which prevent the algorithm into industry applications. On the one hand, most of the state-of-art algorithms require quadrangle bounding box which is in-accurate to locate the texts with arbitrary shape. On the other hand, two text instances which are close to each other may lead to a false detection which covers both instances. Traditionally, the segmentation-based approach can relieve the first problem but usually fail to solve the second challenge. To address these two challenges, in this paper, we propose a novel Progressive Scale Expansion Network (PSENet), which can precisely detect text instances with arbitrary shapes. More specifically, PSENet generates the different scale of kernels for each text instance, and gradually expands the minimal scale kernel to the text instance with the complete shape. Due to the fact that there are large geometrical margins among the minimal scale kernels, our method is effective to split the close text instances, making it easier to use segmentation-based methods to detect arbitrary-shaped text instances. Extensive experiments on CTW1500, Total-Text, ICDAR 2015 and ICDAR 2017 MLT validate the effectiveness of PSENet. Notably, on CTW1500, a dataset full of long curve texts, PSENet achieves a F-measure of 74.3% at 27 FPS, and our best F-measure (82.2%) outperforms state-of-art algorithms by 6.6%. The code will be released in the future.

연구 동기 및 목표

  • 자연 풍경에서 임의의 형태를 가진 텍스트를 탐지하는 문제를 다룬다.
  • 세그먼트의 이점을 보존하면서 인스턴스 분리를 가능하게 하는 커널 기반 프레임워크를 제안한다.
  • 최소 커널에서 전체 텍스트 형태를 재구성하기 위한 점진적 스케일 확장 알고리즘을 개발한다.
  • 다중 스케일 커널 감독에 적합한 라벨 생성 및 손실 설계를 제시한다.
  • 곡선형, 다방향, 다국어 텍스트 벤치마크 전반에서 강인성을 입증한다.

제안 방법

  • 백본: 다중 스케일 특징을 1024채널 맵 F로 융합하기 위한 FPN을 갖춘 ResNet.
  • 점진적으로 더 커지는 커널에 대응하는 n개의 세그멘테이션 출력 S1,...,Sn를 생성한다.
  • 연결 성분을 통해 최소 커널에서 탐지를 초기화하고 BFS 유사한 스케일 확장을 통해 확장한다.
  • Vatti 클리핑을 사용하여 원래 텍스트 다각형을 축소해 G1,...,Gn 실제 마스크를 생성하는 라벨 생성.
  • 손실: 클래스 불균형 해소를 위한 Dice 계수를 갖춘 전체 텍스트 손실 Rc 및 축소 텍스트 손실 Rs의 혼합, 여기에 Rc에 대해 Online Hard Example Mining (OHEM) 추가.

실험 결과

연구 질문

  • RQ1세그먼테이션 기반 접근법을 개선하여 임의의 형태를 가진 텍스트를 정확하게 탐지하고 서로 밀집한 인스턴스를 구분할 수 있는가?
  • RQ2다중 커널 스케일에서의 점진적 스케일 확장이 위치화 정밀도를 희생하지 않으면서 인스턴스 구분을 개선하는가?
  • RQ3다중 커널 감독과 BFS 스타일 확장이 곡선 텍스트 벤치마크 및 다국어 데이터셋에서 성능에 어떤 영향을 미치는가?

주요 결과

  • PSENet은 곡선 텍스트 벤치마크에서 높은 F-지표를 달성하며, 특히 CTW1500에서 82.2% F(단일 스케일 백본 변형) 및 보고된 설정에서 27 FPS로 74.3% F를 달성했다.
  • CTW1500에서 PSENet은 F-measure에서 최첨단을 6.6% 포인트 앞선다.
  • Total-Text에서 PSENet은 F-measure 80.9%를 달성한다(단일 스케일, 외부 데이터 변형이 더 높은 정밀도를 제공).
  • 더 깊은 백본(ResNet50/101/152)으로 성능을 향상시키고 ResNet152로 IC17-MLT에서 72.13% F에 도달한다.
  • 점진적 스케일 확장은 서로 근접한 텍스트 인스턴스의 효과적인 구분과 곡선 텍스트의 견고한 처리를 가능하게 하며 ICDAR 2015, ICDAR 2017 MLT, CTW1500 및 Total-Text에서 입증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.