[논문 리뷰] 600k-ks-ocr: a large-scale synthetic dataset for optical character recognition in kashmiri script
CRNN, TrOCR 및 ML 파이프라인용 다중 형식의 정답을 갖춘 RTL 카슈미르어 텍스트와 약 602k 개의 단어 이미지, ~602k 단어 이미지를 포함한 대규모 합성 카슈미르어 OCR 데이터셋(600K-KS-OCR)을 소개합니다.
This technical report presents the 600K-KS-OCR Dataset, a large-scale synthetic corpus comprising approximately 602,000 word-level segmented images designed for training and evaluating optical character recognition systems targeting Kashmiri script. The dataset addresses a critical resource gap for Kashmiri, an endangered Dardic language utilizing a modified Perso-Arabic writing system spoken by approximately seven million people. Each image is rendered at 256x64 pixels with corresponding ground-truth transcriptions provided in multiple formats compatible with CRNN, TrOCR, and generalpurpose machine learning pipelines. The generation methodology incorporates three traditional Kashmiri typefaces, comprehensive data augmentation simulating real-world document degradation, and diverse background textures to enhance model robustness. The dataset is distributed across ten partitioned archives totaling approximately 10.6 GB and is released under the CC-BY-4.0 license to facilitate research in low-resource language optical character recognition.
연구 동기 및 목표
- 저자들은 저자원 조건에서 카슈미르어 OCR을 발전시키기 위한 대규모의 실제 규모 합성 데이터셋을 제공한다.
- 카슈미르어 스크립트의 서체 다양성을 여러 전통 카슈미르어 서체를 사용하여 포착한다.
- 실제 문서를 시뮬레이션하기 위해 광범위한 데이터 증강과 다양한 배경을 통해 강건성을 향상시킨다.
- 재현 가능한 연구를 가능하게 하는 일반적인 OCR 학습 프레임워크와 호환되는 접근 가능한 데이터 형식을 제공한다.
제안 방법
- 256x64 해상도의 약 602k 단어 수준 이미지를 세 가지 카슈미르어 서체(Afan Koshur Naksh, Nastaleeq, Nakash)로 렌더링한다.
- 60% 샘플에 기하학적 변환, 모션 흐림, 노이즈, 광도, 문서 특화 등 포괄적 증강 파이프라인을 적용한다.
- 깨끗한 배경에서 노후 텍스처에 이르는 혼합 배경을 합성하여 실문서를 시뮬레이션한다.
- 다섯 파티션으로 구성된 아카이브를 CRNN, TrOCR, CSV, JSONL 형식으로 분배하여 융통성 있게 통합할 수 있게 한다.
실험 결과
연구 질문
- RQ1대규모 합성 카슈미르어 단어 이미지가 카슈미르어 서체의 OCR 모델(CRNN 및 Transformer 기반)에 대한 학습에 얼마나 효과적인가?
- RQ2여러 카슈미르어 서체와 다양한 배경이 실제 카슈미르어 문서에 대한 일반화를 향상시키는가?
- RQ3구조화된 데이터 증강이 카슈미르어 서체의 OCR 강건성에 미치는 영향은 무엇인가?
- RQ4데이터셋 형식이 OSS OCR 파이프라인 전반의 효율적인 미세 조정 및 벤치마킹을 촉진할 수 있는가?
주요 결과
- 약 602,000개의 단어 이미지가 10개의 아카이브에 걸쳐 제공되며 총 용량은 약 10.6 GB이다.
- 이미지는 256x64 PNG 형식으로 RTL 카슈미르어 텍스트와 CRNN, TrOCR, CSV 및 JSONL 형식의 정답을 포함한다.
- 실제 문서의 악화를 시뮬레이션하기 위해 샘플의 60%에 증강을 적용하고 40%는 깨끗하게 남겨둔다.
- 데이터는 CC-BY-4.0 라이선스로 Hugging Face Datasets 허브를 통해 접근 가능하다.
- 데이터에는 사용된 글꼴 및 생성 설정에 관한 메타데이터가 포함된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.