QUICK REVIEW

[논문 리뷰] You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine

Thibault Clérice|arXiv (Cornell University)|2022. 07. 19.

Infrared Target Detection Methodologies인용 수 2

한 줄 요약

이 논문은 크라켄의 픽셀 기반 레이아웃 세그멘테이션을 대체하여 이소틱 경계 상자(orthotropic bounding boxes)를 사용하는 YOLOv5 객체 검출 기반 방법인 YALTAi를 제안한다. 이는 소규모 역사적 문서 데이터셋에서 정확도와 속도를 크게 향상시킨다. YALTAi는 컬럼 검출 성능을 최대 100배 향상시키고 메인 본문 검출 점수를 두 배로 높이며, 새로운 오픈소스 패키지와 역사적 문서를 위한 두 가지 벤치마크 데이터셋을 제공한다.

ABSTRACT

Layout Analysis (the identification of zones and their classification) is the first step along line segmentation in Optical Character Recognition and similar tasks. The ability of identifying main body of text from marginal text or running titles makes the difference between extracting the work full text of a digitized book and noisy outputs. We show that most segmenters focus on pixel classification and that polygonization of this output has not been used as a target for the latest competition on historical document (ICDAR 2017 and onwards), despite being the focus in the early 2010s. We propose to shift, for efficiency, the task from a pixel classification-based polygonization to an object detection using isothetic rectangles. We compare the output of Kraken and YOLOv5 in terms of segmentation and show that the later severely outperforms the first on small datasets (1110 samples and below). We release two datasets for training and evaluation on historical documents as well as a new package, YALTAi, which injects YOLOv5 in the segmentation pipeline of Kraken 4.1.

연구 동기 및 목표

소규모 데이터셋(≤1110개 샘플)에서 크라켄의 열악한 성능, 특히 인접한 텍스트 영역(예: 컬럼, 테두리 텍스트)을 구분하지 못하는 문제를 해결하기 위해.
레이아웃 분석에서 픽셀 수준의 분류와 다각형화의 한계를 극복하여 정확한 메인 본문 텍스트 추출을 가능하게 하기 위해.
다각형 및 픽셀 레이블링에서 객체 검출을 위한 경계 상자 사용으로의 전환을 제안하여 효율성과 정확도를 향상시키기 위해.
훈련 및 역사적 문서의 레이아웃 세그멘테이션 평가를 위한 두 가지 새로운 데이터셋인 YALTAi-Tables와 YALTAi-MSS-EPB를 제공하기 위해.
YOLOv5를 크라켄의 파이프라인에 통합하는 플러그인 패키지인 YALTAi를 개발하여, 크라켄 유사 CLI를 통해 YOLO 기반 영역 검출이 가능하게 하기 위해.

제안 방법

YOLOv5를 사용하여 레이아웃 세그멘테이션을 객체 검출 작업으로 재정의하며, 픽셀 수준의 세그멘테이션 대신 이소틱 경계 상자를 예측한다.
훈련을 위해 ALTO XML annotation을 YOLOv5 호환 레이블 형식(예: 클래스 ID, 정규화된 중심점, 너비, 높이)으로 변환한다.
두 가지 새로운 데이터셋인 YALTAi-Tables(16세기~초기 20세기의 표 형식 문서)와 YALTAi-MSS-EPB(9세기~16세기의 수기 및 초기 인쇄본)에 YOLOv5n 및 YOLOv5x 모델을 훈련시킨다.
YOLOv5 검출 기능을 YALTAi 패키지를 통해 크라켄의 파이프라인에 통합하여, 크라켄의 세그멘테이터를 YOLOv5로 대체하면서도 크라켄의 라인 직렬화 및 OCR 워크플로우를 유지한다.
두 데이터셋 간의 일관된 레이블링을 위해 세그멘토(Segmonto) 온톨로지를 사용하여 문서 영역(예: Main, DropCapital, MarginText)을 표준화한다.
크라켄의 인터페이스를 모방하는 명령줄 인터페이스를 통해 모델 추론 및 ALTO와 YOLOv5 형식 간의 변환을 가능하게 한다.

실험 결과

연구 질문

RQ1YOLOv5를 사용한 객체 검출이 소규모 역사적 문서 데이터셋에서 크라켄의 픽셀 기반 세그멘테이션보다 레이아웃 분석 성능을 뛰어나게 할 수 있는가?
RQ2다각형화 및 픽셀 분류에서 경계 상자 검출로의 전환은 문서 레이아웃 세그멘테이션의 정확도와 추론 속도에 어떤 영향을 미치는가?
RQ3YOLOv5가 복잡한 다중 컬럼 또는 표 형식의 레이아웃과 같은 새로운 역사적 문서 레이아웃에 얼마나 잘 일반화되는가?
RQ4모델 크기와 아키텍처(YOLOv5n 대비 YOLOv5x)가 소규모 데이터 시나리오에서 성능과 효율성에 어떤 영향을 미치는가?
RQ5YOLOv5를 크라켄의 파이프라인에 통합함으로써 기존의 HTR 및 OCR 워크플로우와의 호환성을 유지하면서도 세그멘테이션 품질을 향상시킬 수 있는가?

주요 결과

YOLOv5x는 세그멘토 데이터셋의 Main 영역에서 평균 정밀도(mAP) 47.75%를 기록했으며, 이는 크라켄의 6.98%보다 6배 이상 높은 성능이다.
YALTAi-Tables 데이터셋에서 YOLOv5x는 Col 영역에 대해 4.77%의 mAP, Header 영역에 대해 12.9%의 mAP를 기록했으며, 크라켄은 각각 0.09%와 0.1%에 머물렀다.
YOLOv5n은 RunningTitle를 제외한 모든 영역에서 크라켄을 초월했으며, Main 영역에서 34.63%의 mAP를 기록했고, 크라켄은 6.98%였다.
YOLOv5 모델은 유의미하게 빠른 추론 속도를 보였으며, 이미지당 중앙값 예측 시간이 YOLOv5n은 0.004초, YOLOv5x는 0.025초였고, 크라켄은 배치 처리 기능이 없고 훈련 시간이 더 길었다.
YOLOv5는 새로운 표 형식 문서에서 뛰어난 일반화 능력을 보였으며, 크라켄이 하나의 영역으로 통합한 다중 컬럼을 정확히 검출하고 분리했다.
YALTAi 패키지는 크라켄 대비 최대 50%의 GPU 메모리 사용량 감소와 최대 30%의 피크 전력 소비 감소를 기록했으며, 높은 정확도를 유지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.