QUICK REVIEW

[논문 리뷰] 600k-ks-ocr: a large-scale synthetic dataset for optical character recognition in kashmiri script

Haq Nawaz Malik|arXiv (Cornell University)|2026. 01. 03.

Handwritten Text Recognition Techniques인용 수 0

한 줄 요약

CRNN, TrOCR 및 ML 파이프라인용 다중 형식의 정답을 갖춘 RTL 카슈미르어 텍스트와 약 602k 개의 단어 이미지, ~602k 단어 이미지를 포함한 대규모 합성 카슈미르어 OCR 데이터셋(600K-KS-OCR)을 소개합니다.

ABSTRACT

This technical report presents the 600K-KS-OCR Dataset, a large-scale synthetic corpus comprising approximately 602,000 word-level segmented images designed for training and evaluating optical character recognition systems targeting Kashmiri script. The dataset addresses a critical resource gap for Kashmiri, an endangered Dardic language utilizing a modified Perso-Arabic writing system spoken by approximately seven million people. Each image is rendered at 256x64 pixels with corresponding ground-truth transcriptions provided in multiple formats compatible with CRNN, TrOCR, and generalpurpose machine learning pipelines. The generation methodology incorporates three traditional Kashmiri typefaces, comprehensive data augmentation simulating real-world document degradation, and diverse background textures to enhance model robustness. The dataset is distributed across ten partitioned archives totaling approximately 10.6 GB and is released under the CC-BY-4.0 license to facilitate research in low-resource language optical character recognition.

연구 동기 및 목표

저자들은 저자원 조건에서 카슈미르어 OCR을 발전시키기 위한 대규모의 실제 규모 합성 데이터셋을 제공한다.
카슈미르어 스크립트의 서체 다양성을 여러 전통 카슈미르어 서체를 사용하여 포착한다.
실제 문서를 시뮬레이션하기 위해 광범위한 데이터 증강과 다양한 배경을 통해 강건성을 향상시킨다.
재현 가능한 연구를 가능하게 하는 일반적인 OCR 학습 프레임워크와 호환되는 접근 가능한 데이터 형식을 제공한다.

제안 방법

256x64 해상도의 약 602k 단어 수준 이미지를 세 가지 카슈미르어 서체(Afan Koshur Naksh, Nastaleeq, Nakash)로 렌더링한다.
60% 샘플에 기하학적 변환, 모션 흐림, 노이즈, 광도, 문서 특화 등 포괄적 증강 파이프라인을 적용한다.
깨끗한 배경에서 노후 텍스처에 이르는 혼합 배경을 합성하여 실문서를 시뮬레이션한다.
다섯 파티션으로 구성된 아카이브를 CRNN, TrOCR, CSV, JSONL 형식으로 분배하여 융통성 있게 통합할 수 있게 한다.

실험 결과

연구 질문

RQ1대규모 합성 카슈미르어 단어 이미지가 카슈미르어 서체의 OCR 모델(CRNN 및 Transformer 기반)에 대한 학습에 얼마나 효과적인가?
RQ2여러 카슈미르어 서체와 다양한 배경이 실제 카슈미르어 문서에 대한 일반화를 향상시키는가?
RQ3구조화된 데이터 증강이 카슈미르어 서체의 OCR 강건성에 미치는 영향은 무엇인가?
RQ4데이터셋 형식이 OSS OCR 파이프라인 전반의 효율적인 미세 조정 및 벤치마킹을 촉진할 수 있는가?

주요 결과

약 602,000개의 단어 이미지가 10개의 아카이브에 걸쳐 제공되며 총 용량은 약 10.6 GB이다.
이미지는 256x64 PNG 형식으로 RTL 카슈미르어 텍스트와 CRNN, TrOCR, CSV 및 JSONL 형식의 정답을 포함한다.
실제 문서의 악화를 시뮬레이션하기 위해 샘플의 60%에 증강을 적용하고 40%는 깨끗하게 남겨둔다.
데이터는 CC-BY-4.0 라이선스로 Hugging Face Datasets 허브를 통해 접근 가능하다.
데이터에는 사용된 글꼴 및 생성 설정에 관한 메타데이터가 포함된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.