Skip to main content
QUICK REVIEW

[논문 리뷰] An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

Baoguang Shi, Xiang Bai|arXiv (Cornell University)|2015. 07. 21.
Handwritten Text Recognition Techniques참고 문헌 27인용 수 64
한 줄 요약

이 논문은 이미지 기반 시퀀스 인식을 위한 단일 아키텍처로 통합된 컨volutional 특징 추출, 순환 시퀀스 모델링, 전사 기능을 갖춘 엔드 투 엔드 학습 가능한 신경망인 CRNN을 제안한다. CNN과 양방향 LSTM을 결합함으로써, 문자 수준의 애너테이션, 세그멘테이션, 고정 크기 입력이 필요 없이도 스트리트 텍스트 인식에서 최고 성능을 달성하며, 또한 광범위한 광학적 음악 인식 작업으로도 효과적으로 일반화된다.

ABSTRACT

Image-based sequence recognition has been a long-standing research topic in computer vision. In this paper, we investigate the problem of scene text recognition, which is among the most important and challenging tasks in image-based sequence recognition. A novel neural network architecture, which integrates feature extraction, sequence modeling and transcription into a unified framework, is proposed. Compared with previous systems for scene text recognition, the proposed architecture possesses four distinctive properties: (1) It is end-to-end trainable, in contrast to most of the existing algorithms whose components are separately trained and tuned. (2) It naturally handles sequences in arbitrary lengths, involving no character segmentation or horizontal scale normalization. (3) It is not confined to any predefined lexicon and achieves remarkable performances in both lexicon-free and lexicon-based scene text recognition tasks. (4) It generates an effective yet much smaller model, which is more practical for real-world application scenarios. The experiments on standard benchmarks, including the IIIT-5K, Street View Text and ICDAR datasets, demonstrate the superiority of the proposed algorithm over the prior arts. Moreover, the proposed algorithm performs well in the task of image-based music score recognition, which evidently verifies the generality of it.

연구 동기 및 목표

  • 기존의 이미지 기반 시퀀스 인식 방법에서 요구하는 별도의 미분 불가능한 구성 요소(예: 문자 검출기, 고정 크기 입력)의 한계를 해결하기 위해.
  • 자세한 애너테이션 없이도 원시 이미지 입력으로부터 가변 길이 시퀀스를 직접 예측할 수 있는 통합된 딥 러닝 프레임워크를 개발하기 위해.
  • 스트리트 텍스트 및 음악 점수 인식과 같은 다양한 시퀀스 인식 작업에 효과적으로 일반화되는 컴act하고 효율적인 모델을 만들기 위해.
  • 이진화, 세그멘테이션, 척도 정규화와 같은 수작업 전처리 단계가 필요 없도록 하여 실제 이미지에서 강건한 성능을 보장하기 위해.

제안 방법

  • CRNN 아키텍처는 계층적 특징 학습을 위한 컨볼루션 레이어, 시퀀스 모델링을 위한 양방향 Long Short-Term Memory (BLSTM) 레이어, 시퀀스 전달을 위한 커넥티스트 텀포럴 분류(CTC) 레이어로 구성된다.
  • 모델은 CTC 손실을 사용하여 엔드 투 엔드로 학습되며, 문자 수준의 애너테이션 없이도 단어 수준의 레이블로부터 직접 감독을 받을 수 있다.
  • 컨볼루션 레이어에서 추출된 특징 맵은 공간적으로 풀링되어 BLSTM 레이어에 입력되며, 이는 시각적 특징의 시퀀스에서 장거리 의존성을 모델링한다.
  • 입력 높이 변화에 대해 불변성을 확보하기 위해 높이 정규화를 통해 시퀀스 길이에 관계없이 임의의 길이의 입력을 처리할 수 있다.
  • 완전 연결 레이어를 회피함으로써 표준 DCNN보다 훨씬 작고 효율적인 모델이 된다.
  • 프레임워크는 표준 벤치마크를 사용해 스트리트 텍스트 인식에 적용되었으며, 아키텍처의 최소한의 변경으로 광학적 음악 인식으로도 확장되었다.

실험 결과

연구 질문

  • RQ1통합된 딥 러닝 모델이 문자 수준의 애너테이션이나 세그멘테이션 없이도 이미지 기반 시퀀스 인식을 위한 엔드 투 엔드 학습을 달성할 수 있는가?
  • RQ2CNN과 RNN의 통합이 스트리트 텍스트 및 음악 점수와 같은 가변 길이 시퀀스 인식 작업에서 성능을 향상시키는 데 어떻게 기여하는가?
  • RQ3동일한 아키텍처가 영어 및 중국어 텍스트, 음악 표기와 같은 다양한 시퀀스 인식 도메인으로 얼마나 잘 일반화되는가?
  • RQ4이진화 또는 세그멘테이션과 같은 수작업 전처리 단계가 없는 것이 실제 노이즈가 많은 이미지에서 강건성을 향상시키는가?

주요 결과

  • CRNN는 IIIT-5K, Street View Text, ICDAR 스트리트 텍스트 인식 벤치마크에서 기존의 별도의 검출 및 인식 단계를 요구하는 방법보다 최고 성능을 달성한다.
  • ICDAR 2015 스트리트 텍스트 데이터셋에서 CRNN는 단어 인식 정확도 88.8%를 기록하여 이전 최고 성능 결과를 초월한다.
  • 광학적 음악 인식 분야에서 CRNN는 실제 음악 점수 이미지에서 84.0%의 프래그먼트 정확도와 평균 에디트 거리 0.30을 달성하여 Capella Scan 및 PhotoScore와 같은 상용 시스템을 크게 능가한다.
  • 표준 DCNN에 비해 파라미터 수를 줄여 더 컴act하고 효율적인 아키텍처를 제공함으로써 실세계 적용에 적합하다.
  • 합성 및 실제 이미지에서의 노이즈와 배경 혼잡함에 대해 강건함을 입증하였으며, 상용 시스템이 실패하는 상황에서도 뛰어난 성능을 보였다.
  • 제거 실험 결과, CNN과 양방향 LSTM의 조합이 필수적이며, CTC 손실이 문자 수준의 애너테이션 없이도 효과적인 엔드 투 엔드 학습을 가능하게 한다는 점을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.