QUICK REVIEW

[논문 리뷰] Towards Unconstrained End-to-End Text Spotting

Siyang Qin, Alessandro Bissacco|arXiv (Cornell University)|2019. 08. 24.

Handwritten Text Recognition Techniques참고 문헌 58인용 수 23

한 줄 요약

이 논문은 Mask R-CNN을 사용해 개체 분할을 수행하고 주목사용 기반 디코더를 통해 직선이 아닌 불규칙한 모양의 텍스트 영역을 직접 처리함으로써, 임의의 형태를 가진 텍스트를 검출하고 인식하는 엔드 투 엔드 텍스트 스포팅 모델을 제안한다. RoI 마스킹을 도입하고 사전 학습된 OCR 엔진으로부터 부분적으로 레이블링된 데이터를 활용함으로써, ICDAR15에서 이전 최고 성능보다 4.6% 향상되고 Total-Text에서 16% 이상 향상되는 최신 기술 수준의 성능을 달성한다.

ABSTRACT

We propose an end-to-end trainable network that can simultaneously detect and recognize text of arbitrary shape, making substantial progress on the open problem of reading scene text of irregular shape. We formulate arbitrary shape text detection as an instance segmentation problem; an attention model is then used to decode the textual content of each irregularly shaped text region without rectification. To extract useful irregularly shaped text instance features from image scale features, we propose a simple yet effective RoI masking step. Additionally, we show that predictions from an existing multi-step OCR engine can be leveraged as partially labeled training data, which leads to significant improvements in both the detection and recognition accuracy of our model. Our method surpasses the state-of-the-art for end-to-end recognition tasks on the ICDAR15 (straight) benchmark by 4.6%, and on the Total-Text (curved) benchmark by more than 16%.

연구 동기 및 목표

기존 방법이 어려움을 겪는 불규칙한 형태의 텍스트에 대해 엔드 투 엔드 텍스트 스포팅의 열린 문제를 해결하기 위해.
검출과 인식 사이의 기하학적 정규화를 제거하기 위해, 직선으로 펴지 않은 텍스트 특징을 직접 인식기로 전달함으로써 특징의 정규화를 생략하기 위해.
기존의 다단계 OCR 엔진으로부터 자동으로 생성된 부분적으로 레이블링된 데이터를 사용해 모델 성능을 향상시키기 위해.
검출과 인식을 함께 최적화할 수 있는 공통된 특징을 사용하는 융통성 있고 엔드 투 엔드로 훈련 가능한 아키텍처를 개발하기 위해.

제안 방법

임의의 형태를 가진 텍스트 인스턴스의 축에 평행한 경계 상자와 세그멘테이션 마스크를 예측하기 위해 Mask R-CNN을 검출기로 사용한다.
기하학적 정규화 없이, 직선으로 펴지 않은 마스크 처리된 텍스트 특징에서 직접 텍스트를 인식하기 위해 순서에서 순서로 주목사용 기반 디코더를 활용한다.
불규칙한 형태의 텍스트 인스턴스 특징을 특징 맵에서 추출하기 위해 RoI 마스킹 단계를 도입함으로써, 정규화 없이 직접 인식이 가능하게 한다.
사전 학습된 다단계 OCR 엔진(예: Google Cloud Vision API)으로부터 부분적으로 레이블링된 데이터를 활용해 인식 훈련을 부트스트랩한다.
완전히 레이블링된 데이터와 부분적으로 레이블링된 데이터를 모두 사용해 검출 및 인식 브랜치를 동시에 최적화하는 단일 단계 훈련 전략을 채택한다.
검출 및 인식 브랜치 간에 공통된 CNN 백본을 공유함으로써 특징 학습과 계산 효율성을 향상시킨다.

실험 결과

연구 질문

RQ1기하학적 정규화 없이도, 임의의 형태를 가진 텍스트를 검출하고 인식할 수 있는 엔드 투 엔드 모델이 가능한가?
RQ2기존 OCR 엔진으로부터 부분적으로 레이블링된 데이터를 사용할 경우, 엔드 투 엔드 텍스트 스포팅 모델의 성능에 어떤 영향을 미치는가?
RQ3전통적인 정규화 방법에 비해 RoI 마스킹은 불규칙한 형태의 텍스트에서 인식 정확도를 향상시키는가?
RQ4검출 및 인식 브랜치를 함께 훈련시키는 것이, 검출만 별도로 훈련시키는 것보다 더 나은 특징 표현을 가능하게 하는가?

주요 결과

ICDAR15(직선 텍스트) 벤치마크에서 엔드 투 엔드 F-스코어가 59.5%를 기록하여 이전 최고 기록보다 4.6% 향상되었다.
Total-Text(곡선 텍스트) 벤치마크에서 최고 기록을 16% 이상 향상시켜, 불규칙한 형태로의 일반화 능력이 뛰어나다는 것을 입증했다.
부분적으로 레이블링된 데이터 사용이 인식 성능을 크게 향상시키며, 검출 브랜치가 이러한 데이터로 직접 훈련되지 않더라도 효과가 있다.
ResNet-50 백본을 사용할 경우, 부분적으로 레이블링된 데이터를 활용한 RoI 마스킹으로 인해 엔드 투 엔드 AP가 3.3%p 향상되었다.
단일 단계 훈련이 이중 단계 훈련보다 검출 및 엔드 투 엔드 평가 모두에서 성능이 뛰어나, 더 나은 최적화와 특징 학습을 가능하게 한다고 시사한다.
ResNet-50 백본을 사용할 경우, 이미지당 추론 시간은 210ms이며, 인식 브랜치에서 추가로 30ms의 오버헤드만 발생하여 계산 효율성이 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.