Skip to main content
QUICK REVIEW

[논문 리뷰] PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text

Wenhai Wang, Enze Xie|arXiv (Cornell University)|2021. 05. 02.
Handwritten Text Recognition Techniques참고 문헌 74인용 수 24
한 줄 요약

PAN++는 텍스트를 중심 커널 주변의 부위 픽셀로 모델링하는 새로운 커널 표현을 사용하여, 임의의 형태를 띤 텍스트 스포팅을 위한 효율적이고 정확한 엔드 투 엔드 프레임워크를 제안한다. 경량 구성 요소—스택된 특징 피라미드 향상 모듈, 픽셀 집합 인식에 민감한 검출 헤드, 마스킹된 RoI 기반의 인식 헤드—를 활용한 완전 컨volution형 아키텍처를 통해 PAN++는 Total-Text에서 29.2 FPS에서 64.9 F-측도를 달성하며, 이는 이전 방법들보다 빠른 속도와 더 높은 정확도를 확보한 것이다.

ABSTRACT

Scene text detection and recognition have been well explored in the past few years. Despite the progress, efficient and accurate end-to-end spotting of arbitrarily-shaped text remains challenging. In this work, we propose an end-to-end text spotting framework, termed PAN++, which can efficiently detect and recognize text of arbitrary shapes in natural scenes. PAN++ is based on the kernel representation that reformulates a text line as a text kernel (central region) surrounded by peripheral pixels. By systematically comparing with existing scene text representations, we show that our kernel representation can not only describe arbitrarily-shaped text but also well distinguish adjacent text. Moreover, as a pixel-based representation, the kernel representation can be predicted by a single fully convolutional network, which is very friendly to real-time applications. Taking the advantages of the kernel representation, we design a series of components as follows: 1) a computationally efficient feature enhancement network composed of stacked Feature Pyramid Enhancement Modules (FPEMs); 2) a lightweight detection head cooperating with Pixel Aggregation (PA); and 3) an efficient attention-based recognition head with Masked RoI. Benefiting from the kernel representation and the tailored components, our method achieves high inference speed while maintaining competitive accuracy. Extensive experiments show the superiority of our method. For example, the proposed PAN++ achieves an end-to-end text spotting F-measure of 64.9 at 29.2 FPS on the Total-Text dataset, which significantly outperforms the previous best method. Code will be available at: https://git.io/PAN.

연구 동기 및 목표

  • 자연 환경에서 임의의 형태를 띤 텍스트의 효율적이고 정확한 엔드 투 엔드 탐지 문제를 해결한다.
  • 사각형, 픽셀 수준, bbox-픽셀 표현 방식 등 기존의 텍스트 표현 방식의 한계를 극복하기 위해 곡선형 및 인접한 텍스트를 지원하는 커널 기반 표현 방식을 도입한다.
  • 실시간 추론을 가능하게 하면서도 높은 정확도를 유지하는 단일 단계, 완전 컨볼루션 파이프라인을 설계한다.
  • 합성 데이터와 실제 세계 데이터를 병행하여 훈련시켜 다양한 데이터셋 간 일반화 능력을 향상시키고, 강력한 교차 데이터셋 성능을 달성한다.

제안 방법

  • 텍스트 라인을 중심 커널(텍스트 코어)과 그 주변의 부위 픽셀로 모델링하는 커널 표현 방식을 제안하여, 곡선형 및 인접한 텍스트에 대해 타이트하고 융통성 있는 경계 예측을 가능하게 한다.
  • 다양한 스케일의 특징을 효율적으로 통합하기 위해 스택된 특징 피라미드 향상 모듈(FPEMs)을 사용한 특징 향상 네트워크를 설계한다.
  • 단일 순방향 전파에서 커널 영역과 부위 영역을 예측할 수 있도록 경량 검출 헤드에 픽셀 집합(PA)을 구현한다.
  • 커널 영역에 주목하고 배경 노이즈를 억제하는 마스킹된 RoI 기반의 인식 헤드를 도입하여 인식 정확도를 향상시킨다.
  • 모든 엔드 투 엔드 파이프라인을 단일 완전 컨볼루션 네트워크로 훈련시켜 GPU에서 실시간 추론을 가능하게 한다.
  • 인식 헤드의 병렬 처리를 통해 속도 최적화를 실현하여 실질적으로 추론 시간을 1/2로 줄였다.
Figure 1: Comparisons of different scene text representations. (a) The quadrilateral representation [ 9 , 3 , 7 ] fail to locate curved text lines. (b) The pixel-wise representation [ 10 ] is not able to separate adjacent text lines. (c) Although the bounding-box-pixel (bbox-pixel) representation [
Figure 1: Comparisons of different scene text representations. (a) The quadrilateral representation [ 9 , 3 , 7 ] fail to locate curved text lines. (b) The pixel-wise representation [ 10 ] is not able to separate adjacent text lines. (c) Although the bounding-box-pixel (bbox-pixel) representation [

실험 결과

연구 질문

  • RQ1커널 기반 표현 방식이 단일 단계, 엔드 투 엔드 예측을 가능하게 하면서도, 임의의 형태와 인접한 텍스트 라인을 효과적으로 모델링할 수 있는가?
  • RQ2기존의 표현 방식(사각형, 픽셀 수준, bbox-픽셀)과 비교해 볼 때, 제안된 커널 표현 방식은 정확도와 효율성 측면에서 어떤가?
  • RQ3완전 컨볼루션형 경량 아키텍처가 실시간 추론 속도를 유지하면서도 검출 및 인식 성능에서 최신 기술 수준에 도달할 수 있는가?
  • RQ4모델은 다양한 데이터셋, 특히 합성 및 실제 세계 벤치마크에서 얼마나 잘 일반화되는가?
  • RQ5시스템의 주요 실패 유형은 무엇이며, 더 나은 데이터나 아키텍처 개선을 통해 이를 어떻게 완화할 수 있는가?

주요 결과

  • PAN++는 Total-Text 데이터셋에서 29.2 FPS에서 64.9 F-측도를 달성하며, 이는 이전 최신 기술 수준의 방법들보다 뚜렷이 뛰어난 성능을 보였다.
  • SynthText 데이터만으로 훈련된 모델이 Total-Text에서 51.5 F-측도, IC15에서 53.9 F-측도를 기록하여 강력한 제로샷 일반화 능력을 입증했다.
  • 텍스트 라인 수준의 교차 데이터셋 평가에서 모든 모델이 78 F-측도를 초과했으며, CTW1500→MSRA-TD500에서 79.7, MSRA-TD500→CTW1500에서 78.2를 기록하여 강력한 일반화 능력을 보였다.
  • 인식 헤드가 총 추론 시간의 약 절반을 차지하며, 병렬 처리를 통해 지연 시간을 1/2로 줄여 실시간 배포가 가능했다.
  • 실패 사례로는 큰 문자 간격, 텍스트처럼 보이지만 실제 텍스트가 아닌 영역, 스타일화된 폰트 등이 있으며, 주로 데이터 부족과 언어적 맥락의 부재로 인한 것으로 분석되었다.
  • 커널 표현 방식은 곡선형 및 인접한 텍스트 라인의 타이트하고 정확한 세그먼테이션을 가능하게 하여, 융통성과 분리 능력 측면에서 사각형 및 픽셀 수준 표현 방식을 능가했다.
Figure 2: End-to-end text spotting F-measure and inference speed on Total-Text. Our PAN++ has extreme advantages compared with counterparts. “PAN++ 736” (the short size of the input image being 736 pixels) is 5.0 points better than ABCNet [ 22 ] and the inference speed is faster. “PAN++ 512” execute
Figure 2: End-to-end text spotting F-measure and inference speed on Total-Text. Our PAN++ has extreme advantages compared with counterparts. “PAN++ 736” (the short size of the input image being 736 pixels) is 5.0 points better than ABCNet [ 22 ] and the inference speed is faster. “PAN++ 512” execute

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.