QUICK REVIEW

[논문 리뷰] Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition

Christoph Wick, Christian Reul|arXiv (Cornell University)|2018. 07. 05.

Handwritten Text Recognition Techniques인용 수 24

한 줄 요약

Calamari는 연결계 시간 분류(CTC)를 통해 훈련하는 맞춤형 CNN-LSTM 아키텍처를 활용하고, 사전 훈련 및 투표 기능을 내장한 고성능, 텐서플로우 기반의 광학 문자 인식(OCR)을 위한 딥러닝 프레임워크이다. 현대 영어(UW3)에서 0.11%의 문자 오류율(CER)과 독일 프라크투어(Fraktur, DTA19)에서 0.18%의 CER을 기록하여 OCRopy, OCRopus3 및 Tesseract 4를 능가하는 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Optical Character Recognition (OCR) on contemporary and historical data is still in the focus of many researchers. Especially historical prints require book specific trained OCR models to achieve applicable results (Springmann and L\\"udeling, 2016, Reul et al., 2017a). To reduce the human effort for manually annotating ground truth (GT) various techniques such as voting and pretraining have shown to be very efficient (Reul et al., 2018a, Reul et al., 2018b). Calamari is a new open source OCR line recognition software that both uses state-of-the art Deep Neural Networks (DNNs) implemented in Tensorflow and giving native support for techniques such as pretraining and voting. The customizable network architectures constructed of Convolutional Neural Networks (CNNS) and Long-ShortTerm-Memory (LSTM) layers are trained by the so-called Connectionist Temporal Classification (CTC) algorithm of Graves et al. (2006). Optional usage of a GPU drastically reduces the computation times for both training and prediction. We use two different datasets to compare the performance of Calamari to OCRopy, OCRopus3, and Tesseract 4. Calamari reaches a Character Error Rate (CER) of 0.11% on the UW3 dataset written in modern English and 0.18% on the DTA19 dataset written in German Fraktur, which considerably outperforms the results of the existing softwares.

연구 동기 및 목표

역사적 및 현대 텍스트의 OCR 모델 훈련을 위한 수동 애너테이션 노력 감소
사전 훈련 및 앙상블 투표와 같은 고급 딥러닝 기법을 지원하는 고성능 오픈소스 OCR 시스템 개발
최신 기술 수준의 딥 네트워크를 활용해 도전적인 역사적 스크립트(예: 독일 프라크투어)에서의 OCR 정확도 향상
CTC 손실을 사용하는 맞춤형 CNN-LSTM 아키텍처를 통한 라인 수준 OCR을 위한 유연하고 커스터마이징 가능한 프레임워크 제공
GPU 가속 및 최적화된 텐서플로우 구현을 통해 훈련 및 추론의 효율성 향상

제안 방법

시스템은 컨볼루션 신경망(CNNs)과 장기 기억 순환 신경망(LSTM) 레이어를 조합한 맞춤형 딥 네트워크 아키텍처를 사용한다.
입력과 출력 간의 명시적 정렬이 필요 없이 시퀀스 간 정렬을 처리할 수 있도록 연결계 시간 분류(CTC) 알고리즘을 사용해 훈련을 수행한다.
대규모 비라벨 텍스트 데이터에서의 사전 훈련을 내장 기능으로 지원하여 일반화 능력을 향상시키고 애너테이션 필요성을 줄인다.
여러 모델 간의 투표 메커니즘을 통합하여 예측의 강건성과 정확도를 향상시킨다.
훈련 및 추론 시간을 크게 단축하기 위해 GPU 가속을 지원한다.
모델은 두 가지 벤치마크 데이터셋(UW3: 현대 영어, DTA19: 독일 프라크투어)에서 훈련 및 평가된다.

실험 결과

연구 질문

RQ1사전 훈련 및 투표 기능을 내장한 딥러닝 기반 OCR 시스템이 역사적 및 현대 텍스트 인식에서 뛰어난 성능을 달성할 수 있는가?
RQ2CTC 훈련과 결합된 CNN-LSTM 아키텍처의 통합이 도전적인 스크립트(예: 독일 프라크투어)에서 문자 오류율을 어떻게 향상시키는가?
RQ3사전 훈련이 OCR에서 대규모 수동 애너테이션 기반 참조 데이터가 필요한 정도를 어느 정도 줄일 수 있는가?
RQ4Tesseract 4, OCRopus3 및 OCRopy와 같은 기존 OCR 도구와 비교해 Calamari의 성능 및 효율성은 어떠한가?
RQ5GPU 지원이 있는 텐서플로우 기반 프레임워크가 OCR 작업의 훈련 및 추론 시간을 상당히 단축시킬 수 있는가?

주요 결과

UW3 데이터셋(현대 영어 텍스트 포함)에서 Calamari는 0.11%의 문자 오류율(CER)을 기록하여 OCRopy, OCRopus3 및 Tesseract 4를 능가한다.
독일 프라크투어 스크립트를 포함한 DTA19 데이터셋에서 Calamari는 0.18%의 CER을 기록하여 역사적 스크립트에서 뛰어난 성능을 보였다.
사전 훈련 및 투표 메커니즘의 통합은 특히 자원이 제한된 상황에서 모델의 강건성과 오류율 감소에 크게 기여한다.
GPU 가속 덕분에 훈련 및 추론 시간이 상당히 단축되어 복잡한 모델 훈련의 실용성을 높였다.
CTC 훈련을 지원하는 커스터마이징 가능한 CNN-LSTM 아키텍처는 고정밀도 라인 수준 OCR의 견고한 기반을 제공한다.
Calamari는 오픈소스이며 확장 가능하도록 설계되어 연구자들이 다양한 OCR 응용 분야에 맞게 시스템을 적응시킬 수 있도록 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.