[논문 리뷰] OCR of historical printings with an application to building diachronic corpora: A case study using the RIDGES herbal corpus
이 논문은 1487~1870년 사이의 역사적 독일 허브라리우스의 공식적 전사본을 기반으로 한 신경망 기반 OCR 시스템을 제시한다. OCRopus 엔진을 사용하여 훈련된 이 시스템은 문자 정확도 94~99%, 단어 정확도 76~97%를 달성하였다. 이 방법은 초기 인쇄물, 특히 인크라불라를 포함한 고전적 인쇄물의 고정밀 자동 디지털화를 가능하게 하며, 최소한의 수작업으로도 확장 가능한 시계적 어휘집을 구축하는 데 기여한다.
This article describes the results of a case study that applies Neural Network-based Optical Character Recognition (OCR) to scanned images of books printed between 1487 and 1870 by training the OCR engine OCRopus [@breuel2013high] on the RIDGES herbal text corpus [@OdebrechtEtAlSubmitted]. Training specific OCR models was possible because the necessary *ground truth* is available as error-corrected diplomatic transcriptions. The OCR results have been evaluated for accuracy against the ground truth of unseen test sets. Character and word accuracies (percentage of correctly recognized items) for the resulting machine-readable texts of individual documents range from 94% to more than 99% (character level) and from 76% to 97% (word level). This includes the earliest printed books, which were thought to be inaccessible by OCR methods until recently. Furthermore, OCR models trained on one part of the corpus consisting of books with different printing dates and different typesets *(mixed models)* have been tested for their predictive power on the books from the other part containing yet other fonts, mostly yielding character accuracies well above 90%. It therefore seems possible to construct generalized models trained on a range of fonts that can be applied to a wide variety of historical printings still giving good results. A moderate postcorrection effort of some pages will then enable the training of individual models with even better accuracies. Using this method, diachronic corpora including early printings can be constructed much faster and cheaper than by manual transcription. The OCR methods reported here open up the possibility of transforming our printed textual cultural heritage into electronic text by largely automatic means, which is a prerequisite for the mass conversion of scanned books.
연구 동기 및 목표
- 이전에는 OCR에 적합하지 않다고 여겨졌던 역사적 인쇄물, 특히 초기 인크라불라까지 정확하게 인식할 수 있는 훈련 가능한 OCR 시스템을 개발하는 것.
- 네오-신경망 기반 OCR의 성능을 4세기에 걸친 다양한 역사적 독일 허브라리우스 어휘집에 대해 평가하는 것.
- 다양한 글꼴과 인쇄 연도를 포함한 혼합 글꼴 데이터로 훈련된 OCR 모델이 새로운, 볼 수 없는 역사적 텍스트(다른 글꼴과 인쇄 연도를 가짐)로의 일반화 능력을 평가하는 것.
- 일반화된 혼합 모델 기반 OCR 시스템이 어휘집 구축을 위한 신뢰할 수 있는 초보적 근사치로 기능할 수 있음을 보여주는 것. 이는 전체 수작업 전사의 필요성을 줄여준다.
제안 방법
- 스캔된 역사적 책의 이미지를 기반으로 OCRopus 엔진을 사용하여 Recurrent Neural Network(LSTM-RNN) 아키텍처를 적용한 맞춤형 OCR 모델을 훈련하는 것.
- 교정된 오류 없는, 원본 텍스트의 글자 수준 정확도를 반영한 전사본인 '공식적 전사본'을 지도 학습의 참값으로 사용하는 것.
- 여러 인쇄 연도와 글꼴을 포함한 RIDGES 어휘집의 다양한 하위 집합을 기반으로 혼합 모델 OCR 시스템을 구축하는 것.
- 문자 수준 및 단어 수준 정확도 지표를 사용하여 테스트 세트에서 OCR 성능을 평가하는 것.
- 소수의 페이지에 대한 후처리 보정을 통해 모델을 정밀하게 조정하고 정확도를 추가로 향상시키는 것.
- 훈련된 모델과 최종적으로 생성된 OCR 어휘집(RIDGES-OCR)을 CC-BY 라이선스 하에 공개하여 재사용과 커뮤니티 기반 모델 개선을 지원하는 것.
실험 결과
연구 질문
- RQ1신경망 기반 OCR이 15세기 인크라불라를 포함한 역사적 인쇄물에서도 고정밀도를 달성할 수 있는가?
- RQ2다양한 글꼴을 포함한 혼합 데이터로 훈련된 OCR 모델이 새로운, 볼 수 없는 역사적 텍스트(다른 글꼴과 인쇄 연도)로의 일반화 능력은 어느 정도인가?
- RQ3RIDGES 어휘집 내에서 다양한 시기와 글꼴에 따라 OCR 정확도는 어떻게 변동하는가?
- RQ4일반화된 OCR 모델이 어휘집 구축을 위한 실용적인 초보적 근사치로 기능할 수 있는가? 이는 수작업 전사에 대한 의존도를 줄여주는가?
- RQ5최소한의 후처리 보정이 OCR 정확도 향상에 미치는 영향은 무엇이며, 더 정확한 개별 모델 훈련을 가능하게 하는가?
주요 결과
- RIDGES 어휘집 내 개별 문서에서 OCR 결과의 문자 수준 정확도는 94%에서 99% 이상으로 변동하였으며, 15세기의 텍스트 역시 포함되어 있었다.
- 단어 수준 정확도는 76%에서 97%로 변동하여, 변형된 철자와 다양한 인쇄 체계를 가진 복잡한 역사적 텍스트에서도 뛰어난 성능을 보였다.
- 다양한 인쇄 연도와 글꼴을 포함한 혼합된 글꼴 데이터로 훈련된 OCR 모델은 새로운 역사적 텍스트에서도 문자 수준 정확도 90% 이상을 달성하여 강력한 일반화 능력을 입증하였다.
- 소수의 후처리 보정 페이지를 활용함으로써 모델 정확도가 크게 향상되었으며, 이는 매우 정밀한 개별 모델 훈련을 가능케 하였다.
- 최종적으로 생성된 RIDGES-OCR 어휘집과 일반화된 혼합 모델은 CC-BY 라이선스 하에 공개되어 재사용 및 커뮤니티 기반 모델 개선이 가능하다.
- 본 연구는 최소한의 수작업으로도 고품질의 기계 가공 가능한 역사적 인쇄물 텍스트를 대규모로 생산할 수 있음을 입증하였으며, 이는 시계적 어휘집 구축을 가속화하는 데 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.