[논문 리뷰] Joint Line Segmentation and Transcription for End-to-End Handwritten Paragraph Recognition
본 논문은 표준 MDLSTM 붕합을 주의 기반 가중치 붕합으로 대체하여 명시적 줄 구분 없이 손글씨 단락의 엔드투엔드 전사를 가능하게 하며 IAM 및 RIMES 데이터셋에서 경쟁력 있는 결과를 얻는다.
Offline handwriting recognition systems require cropped text line images for both training and recognition. On the one hand, the annotation of position and transcript at line level is costly to obtain. On the other hand, automatic line segmentation algorithms are prone to errors, compromising the subsequent recognition. In this paper, we propose a modification of the popular and efficient multi-dimensional long short-term memory recurrent neural networks (MDLSTM-RNNs) to enable end-to-end processing of handwritten paragraphs. More particularly, we replace the collapse layer transforming the two-dimensional representation into a sequence of predictions by a recurrent version which can recognize one line at a time. In the proposed model, a neural network performs a kind of implicit line segmentation by computing attention weights on the image representation. The experiments on paragraphs of Rimes and IAM database yield results that are competitive with those of networks trained at line level, and constitute a significant step towards end-to-end transcription of full documents.
연구 동기 및 목표
- 오프라인 필기 인식에서 명시적 줄 구분에 대한 의존도를 줄이는 것을 동기 부여한다.
- 주목(attention)을 통해 줄을 암시적으로 구분하는 엔드-투-엔드 단락 전사 모델을 제안한다.
- MDLSTM-RNN에 주의 기반 가중치 합산을 통합하여 줄을 순차적으로 읽도록 한다.
- BLSTM 디코더를 활용하면서 단락 수준의 CTC 손실로 모델을 학습한다.
- 공개 데이터셋 IAM과 RIMES에서 줄 구분 기반의 기준 모델과의 성능을 평가한다.
제안 방법
- 단락 이미지에서 2D 피처를 추출하기 위해 MDLSTM-RNN을 인코더로 사용한다.
- 표준 수직 붕합을 가중치 기반의 주의 주도 붕합으로 대체하여 한 번에 한 줄을 읽는다.
- 2D 피처 맵에 대한 주의 가중치를 계산하여 줄별 가중 합을 형성한다.
- 선형 표현은 (양방향) LSTM 디코더로 디코딩하며, 필요 시 줄 출력들을 연결(concatenate)한 후에 수행한다.
- 단락 수준에서 CTC 손실로 학습하되, 필요 시 BLSTM 디코더를 사용한다.
- 고정된 줄 수를 위한 반복적 읽기 및 전체 문서 레이아웃의 한계에 대해 논의한다.
실험 결과
연구 질문
- RQ1주목 기반 MDLSTM 메커니즘을 사용하여 명시적 줄 구분 없이 엔드-투-엔드 단락 전사가 달성될 수 있는가?
- RQ2주목을 통한 암시적 줄 구분이 실제 줄 구분(ground-truth)과 비교했을 때 인식 정확도에 어떤 영향을 미치는가?
- RQ3고정된 읽기 단계 수를 사용하는 것과 가변 단락 길이에 대해 종료 토큰을 예측하는 것 간의 트레이드오프는 무엇인가?
- RQ4다양한 해상도와 구분 조건에서 제안된 접근 방식이 표준 데이터셋(IAM, RIMES)에서 어떻게 성능을 보이는가?
- RQ5전체 문서 페이지로 확장하기 위한 실용적 한계와 향후 방향은 무엇인가?
주요 결과
- 주의 기반 가중치 붕합은 표준 붕합 및 소프트맥스 베이스라인에 비해 CER을 크게 향상시킨다.
- IAM에서, BLSTM 디코더를 갖춘 주의(attention)가 상당한 CER 감소를 가져온다(연구에서 보고된 상대 개선).
- RIMES에서 주의 모델은 CER를 크게 개선하며, baseline 대비 큰 상대 이득을 포함한다.
- 명시적 줄 구분 없이 엔드-투-엔드 단락 전사는 줄 구분 기반 방법과 경쟁력 있는 성능을 보인다.
- 더 높은 입력 해상도가 IAM과 RIMES 데이터셋에서 더 나은 성능을 낳는다.
- 언어 모델을 활용한 경우에도 다수의 경우에서 실제 줄 구분 없이 경쟁력 있는 WER/CER 점수를 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.