QUICK REVIEW

[논문 리뷰] Scene Text Recognition with Sliding Convolutional Character Models

Fei Yin, Yichao Wu|arXiv (Cornell University)|2017. 09. 06.

Handwritten Text Recognition Techniques참고 문헌 32인용 수 72

한 줄 요약

슬라이딩 윈도우 CNN 기반 장면 텍스트 인식 방법으로, 문자 분할이나 어휘를 필요로 하지 않고 컨볼루션 문자 모델과 CTC 전사로 엔드-투-엔드로 문자 감지 및 인식.

ABSTRACT

Scene text recognition has attracted great interests from the computer vision and pattern recognition community in recent years. State-of-the-art methods use concolutional neural networks (CNNs), recurrent neural networks with long short-term memory (RNN-LSTM) or the combination of them. In this paper, we investigate the intrinsic characteristics of text recognition, and inspired by human cognition mechanisms in reading texts, we propose a scene text recognition method with character models on convolutional feature map. The method simultaneously detects and recognizes characters by sliding the text line image with character models, which are learned end-to-end on text line images labeled with text transcripts. The character classifier outputs on the sliding windows are normalized and decoded with Connectionist Temporal Classification (CTC) based algorithm. Compared to previous methods, our method has a number of appealing properties: (1) It avoids the difficulty of character segmentation which hinders the performance of segmentation-based recognition methods; (2) The model can be trained simply and efficiently because it avoids gradient vanishing/exploding in training RNN-LSTM based models; (3) It bases on character models trained free of lexicon, and can recognize unknown words. (4) The recognition process is highly parallel and enables fast recognition. Our experiments on several challenging English and Chinese benchmarks, including the IIIT-5K, SVT, ICDAR03/13 and TRW15 datasets, demonstrate that the proposed method yields superior or comparable performance to state-of-the-art methods while the model size is relatively small.

연구 동기 및 목표

Robust scene text recognition을 사람의 읽기 방식인 슬라이딩 윈도우와 고정으로 모방하여 동기를 부여한다.
슬라이딩 윈도우에서 작동하는 컨볼루션 문자 모델을 개발하여 문자를 감지하고 인식한다.
문자 수준 주석 없이 weakly labeled 단어 이미지에서 엔드-투-엔드로 학습한다.
per-window 예측을 최종 텍스트 시퀀스로 변환하기 위해 CTC 전사를 활용한다.
작고Compact 모델로 영어 및 중국어 장면 텍스트 벤치마크에서 경쟁력 있는 성능을 Demonstrate한다.

제안 방법

세 부분 프레임워크를 사용한다: 슬라이딩 윈도우 특성 추출, 컨볼루션 문자 분류기, 전사 레이어.
32x32 회색조 윈도우를 받아 다중 클래스 문자 분포를 출력하는 15-layer CNN을 문자 모델로 사용한다.
정답 시퀀스의 음의 로그 가능도(negative log-likelihood)로 네트워크를 엔드-투-엔드로 학습하며 문자 수준 라벨링은 명시적으로 피한다.
Connectionist Temporal Classification (CTC)을 적용하여 윈도우별 출력을 정렬 없이 전사로 매핑한다.
디코딩은 naive(최고 경로), 어휘 기반 또는 언어 모델 기반일 수 있으며, LM과 가지치기 전략을 포함하는 정제된 CTC 빔 탐색이 있다.
효율성을 위해 엔드-투-엔드 학습과 윈도우별 분류의 병렬화 지원한다.

실험 결과

연구 질문

RQ1슬라이딩 윈도우 문자 모델과 CTC를 결합하면 문자 분할 없이도 장면 텍스트를 효과적으로 인식할 수 있는가?
RQ2이 접근법은 영어 및 중국어 장면 텍스트 벤치마크에서 최첨단 방법과 비교하여 어떤 성능을 보이는가?
RQ3다중 스케일 슬라이딩 윈도우와 언어 모델 통합이 인식 정확도와 속도에 미치는 영향은?
RQ4모델이 렉시콘 없이 작동하고도 데이터셋 전반에서 경쟁력 있는 정확도를 유지할 수 있는가?
RQ5모델의 규모를 얼마나 작게 하면서도 성능을 보존할 수 있으며 모바일 배치에 적합한가?

주요 결과

방법은 영어 벤치마크(IC03, IC13, IIIT5k, SVT)에서 상대적으로 작은 모델(베이스 구성에서 약 8.1M 파라미터, 잔향 네트로 감소 가능)로도 경쟁적이거나 우수한 성능을 보인다.
다중 스케일(n=3) 슬라이딩 윈도우 버전이 단일 스케일보다 더 좋은 성능을 보여 더 많은 문맥을 포착하여 인식을 개선한다.
뉴비 디코딩으로도 최첨단 방법과 비슷한 정확도를 달성하고, 어휘 기반 또는 LM 기반 디코딩으로는 특정 데이터셋에서 이를 능가할 수 있다(예: IIIT5k).
중국어 TRW15 결과는 이전 방법들에 비해 현저한 개선을 보여주며, 예를 들어 base 모델의 TRW15-T 정확도는 81.2% (LM), TRW15-A는 81.7% (LM)로 강한 교차 스크립트 일반화를 시사한다.
샘플당 추론 시간은 매우 효율적이며(테스트된 하드웨어에서 naive decoding 시 약 0.015s/샘플).
합성 데이터(Synth, Synth-Ch)로의 학습은 실제 데이터셋에서 강력한 제로샷 성능을 가능하게 하며, 기본 설정에서는 모델이 렉시콘-프리 및 언어 모델-프리로 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.