QUICK REVIEW

[논문 리뷰] Deep Structured Output Learning for Unconstrained Text Recognition

Max Jaderberg, Karen Simonyan|arXiv (Cornell University)|2014. 12. 18.

Handwritten Text Recognition Techniques참고 문헌 18인용 수 91

한 줄 요약

이 논문은 비제약 조건의 텍스트 인식을 위해 컨volutional 신경망(CNN)과 조건부 랜덤 필드(CRF)를 결합한 딥 구조적 출력 학습 프레임워크를 제안한다. 역전파 구조 손실을 통해 문자 예측기와 N-gram 예측기를 공동으로 훈련시킴으로써, 실제 데이터가 아닌 합성 훈련 데이터만을 사용하여도 비제약 조건 및 어휘 제약 조건이 있는 벤치마크에서 최신 기술 수준의 정확도를 달성한다.

ABSTRACT

We develop a representation suitable for the unconstrained recognition of words in natural images: the general case of no fixed lexicon and unknown length. To this end we propose a convolutional neural network (CNN) based architecture which incorporates a Conditional Random Field (CRF) graphical model, taking the whole word image as a single input. The unaries of the CRF are provided by a CNN that predicts characters at each position of the output, while higher order terms are provided by another CNN that detects the presence of N-grams. We show that this entire model (CRF, character predictor, N-gram predictor) can be jointly optimised by back-propagating the structured output loss, essentially requiring the system to perform multi-task learning, and training uses purely synthetically generated data. The resulting model is a more accurate system on standard real-world text recognition benchmarks than character prediction alone, setting a benchmark for systems that have not been trained on a particular lexicon. In addition, our model achieves state-of-the-art accuracy in lexicon-constrained scenarios, without being specifically modelled for constrained recognition. To test the generalisation of our model, we also perform experiments with random alpha-numeric strings to evaluate the method when no visual language model is applicable.

연구 동기 및 목표

고정된 어휘에 의존하지 않고, 사전에 없는 단어에도 일반화되는 텍스트 인식 시스템을 개발하는 것.
비제약 조건의 환경에서 임의의 영숫자 문자열과 자연어 단어를 인식하는 과제를 해결하는 것.
문자 수준의 예측과 고차원 N-gram 의존성의 공동 모델링을 통해 정확도를 향상시키는 것.
실제 레이블이 부여된 텍스트가 필요 없이 오직 합성 데이터만을 사용하여 전체 시스템을 엔드 투 엔드로 훈련시키는 것.
어휘 제약 조건이 있는 경우와 없는 경우 모두에서 경쟁적인 성능을 달성하면서, 각각의 경우에 특화된 아키텍처 설계 없이도 유연성을 확보하는 것.

제안 방법

모델은 각 단어의 위치에서 문자 확률을 예측하는 데 CNN을 사용하며, 이는 CRF 내의 단항 잠재변수로 기능한다.
두 번째 CNN은 단어 이미지 전반에 걸쳐 N-gram(예: 이중어, 삼중어)의 존재 여부를 예측하여 고차원 CRF 간선 잠재변수를 제공한다.
CRF 레이어는 단항 점수와 간선 점수를 조합하여 구조적 예측을 통해 가장 가능성이 높은 문자 시퀀스를 추론한다.
전체 시스템은 구조적 출력 손실을 통해 역전파를 수행함으로써, 문자 예측기와 N-gram 예측기를 공동 최적화할 수 있도록 엔드 투 엔드로 훈련된다.
훈련은 실제 레이블이 부여된 데이터가 전혀 필요 없이 오직 합성으로 생성된 단어 이미지에 의존한다.
모델은 CRF 점수를 최대화하는 문자 시퀀스를 찾는 방식으로 추론를 수행함으로써, 예측 간 일관성을 강제한다.

실험 결과

연구 질문

RQ1고정된 어휘에 의존하지 않고도 딥 러닝 모델이 비제약 조건 텍스트 인식에서 높은 정확도를 달성할 수 있는가?
RQ2문자 수준의 예측과 N-gram 패턴의 공동 모델링이 인식의 강건성 향상에 얼마나 효과적인가?
RQ3오직 합성 데이터로만 훈련된 모델이 실제 비제약 조건 텍스트 인식 벤치마크로 일반화되는 데 효과적인가?
RQ4구조적 CRF 모델링을 통합함으로써, 비제약 조건 및 제약 조건 설정 모두에서 독립적인 문자 예측보다 성능 향상이 이루어지는가?
RQ5기존 언어 모델이 실패하는 비언어적, 임의의 영숫자 문자열에 대해 모델의 성능은 어떠한가?

주요 결과

JOINT 모델은 어휘 제약 조건 없이 IC03 테스트 세트에서 89.6%의 정확도를 기록하여, 문자 전용 모델(85.9%)을 뛰어넘고 어휘 없이도 새로운 벤치마크를 설정한다.
SVT 데이터셋에서 JOINT 모델은 어휘 없이 71.7%의 정확도를 기록하여 CHAR 모델(68.0%)을 크게 앞서며, 비제약 조건 설정에서 이전 최신 기술 수준의 방법들과 경쟁하거나 이를 초월한다.
90,000단어 어휘로 제약을 가미한 상황에서, JOINT 모델은 IC03에서 93.1%의 정확도를 기록하여, 해당 어휘에 대해 훈련되지 않은 점을 감안할 때 DICT 모델(98.7% on IC03-Full)의 성능을 재현한다.
임의의 영숫자 문자열로 구성된 SynthRand 데이터셋에서, JOINT 모델은 81.8%의 정확도를 유지하여 N-gram 언어 모델이 효과를 발휘하지 못하는 상황에서도 강건성을 입증한다.
qualitative 예시에서 CRF 간선 점수가 잘못된 예측를 수정하는 것으로 나타났으며, 이는 Figure 4에서 확인할 수 있다.
JOINT 모델은 비제약 조건 및 어휘 제약 조건 설정 모두에서 최신 기술 수준의 성능를 달성하여, 모델의 유연성과 일반화 능력을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.