QUICK REVIEW

[論文レビュー] 600k-ks-ocr: a large-scale synthetic dataset for optical character recognition in kashmiri script

Haq Nawaz Malik|arXiv (Cornell University)|Jan 3, 2026

Handwritten Text Recognition Techniques被引用数 0

ひとこと要約

大規模な合成クムミ語（カシミール語）OCRデータセット（600K-KS-OCR）を紹介。約602k語の画像、RTLクシミール語テキスト、CRNN・TrOCR・MLパイプライン用の多形式のグラウンドトゥルース。

ABSTRACT

This technical report presents the 600K-KS-OCR Dataset, a large-scale synthetic corpus comprising approximately 602,000 word-level segmented images designed for training and evaluating optical character recognition systems targeting Kashmiri script. The dataset addresses a critical resource gap for Kashmiri, an endangered Dardic language utilizing a modified Perso-Arabic writing system spoken by approximately seven million people. Each image is rendered at 256x64 pixels with corresponding ground-truth transcriptions provided in multiple formats compatible with CRNN, TrOCR, and generalpurpose machine learning pipelines. The generation methodology incorporates three traditional Kashmiri typefaces, comprehensive data augmentation simulating real-world document degradation, and diverse background textures to enhance model robustness. The dataset is distributed across ten partitioned archives totaling approximately 10.6 GB and is released under the CC-BY-4.0 license to facilitate research in low-resource language optical character recognition.

研究の動機と目的

低リソース条件下でカシミール語OCRを進めるための大規模かつ本物のスケールの合成データセットを提供する。
複数の伝統的カシミール語体を用いて書体の書法的多様性を捉える。
現実世界の文書をシミュレートするため、広範なデータ拡張と多様な背景によって頑健性を向上させる。
一般的なOCRトレーニングフレームワークに対応した利用可能なデータ形式を提供し、再現可能な研究を可能にする。

提案手法

256x64の三つのカシミール語体（Afan Koshur Naksh、Nastaleeq、Nakash）を用いて約602k語レベル画像をレンダリング。
60%のサンプルに対して幾何学的、ブラー、ノイズ、写真測光、文書特有の拡張を含む包括的な拡張パイプラインを適用。
クリーンな状態から古い質感までの混在背景を合成し、実文書をシミュレート。
10個のアーカイブに分割して、CRNN、TrOCR、CSV、JSONLの形式で柔軟な組み込みを可能にする。

実験結果

リサーチクエスチョン

RQ1大規模な合成カシミール語語彙画像は、カシミール語スクリプトのOCRモデル（CRNNおよびTransformerベース）を訓練する際にどれほど効果的か。
RQ2複数のカシミール語体と多様な背景は実世界のカシミール語文書への一般化を改善するか。
RQ3構造化データ拡張がカシミール語スクリプトのOCR頑健性に与える影響はどの程度か。
RQ4データセット形式はOSS OCRパイプライン全体の効率的なファインチューニングとベンチマークを促進できるか。

主な発見

約602,000語の画像が10個のアーカイブに分散され、総計約10.6 GB。
画像は256x64のPNGでRTLカシミール語テキストを含み、グラウンドトゥルースはCRNN、TrOCR、CSV、JSONL形式。
拡張はサンプルの60%に適用され、現実的な文書劣化を模倣；40%はクリーンなまま。
データはCC-BY-4.0ライセンスで、Hugging Face Datasetsハブを通じてアクセス可能。
データには使用フォントと生成設定のメタデータが含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。