[論文レビュー] 600k-ks-ocr: a large-scale synthetic dataset for optical character recognition in kashmiri script
大規模な合成クムミ語(カシミール語)OCRデータセット(600K-KS-OCR)を紹介。約602k語の画像、RTLクシミール語テキスト、CRNN・TrOCR・MLパイプライン用の多形式のグラウンドトゥルース。
This technical report presents the 600K-KS-OCR Dataset, a large-scale synthetic corpus comprising approximately 602,000 word-level segmented images designed for training and evaluating optical character recognition systems targeting Kashmiri script. The dataset addresses a critical resource gap for Kashmiri, an endangered Dardic language utilizing a modified Perso-Arabic writing system spoken by approximately seven million people. Each image is rendered at 256x64 pixels with corresponding ground-truth transcriptions provided in multiple formats compatible with CRNN, TrOCR, and generalpurpose machine learning pipelines. The generation methodology incorporates three traditional Kashmiri typefaces, comprehensive data augmentation simulating real-world document degradation, and diverse background textures to enhance model robustness. The dataset is distributed across ten partitioned archives totaling approximately 10.6 GB and is released under the CC-BY-4.0 license to facilitate research in low-resource language optical character recognition.
研究の動機と目的
- 低リソース条件下でカシミール語OCRを進めるための大規模かつ本物のスケールの合成データセットを提供する。
- 複数の伝統的カシミール語体を用いて書体の書法的多様性を捉える。
- 現実世界の文書をシミュレートするため、広範なデータ拡張と多様な背景によって頑健性を向上させる。
- 一般的なOCRトレーニングフレームワークに対応した利用可能なデータ形式を提供し、再現可能な研究を可能にする。
提案手法
- 256x64の三つのカシミール語体(Afan Koshur Naksh、Nastaleeq、Nakash)を用いて約602k語レベル画像をレンダリング。
- 60%のサンプルに対して幾何学的、ブラー、ノイズ、写真測光、文書特有の拡張を含む包括的な拡張パイプラインを適用。
- クリーンな状態から古い質感までの混在背景を合成し、実文書をシミュレート。
- 10個のアーカイブに分割して、CRNN、TrOCR、CSV、JSONLの形式で柔軟な組み込みを可能にする。
実験結果
リサーチクエスチョン
- RQ1大規模な合成カシミール語語彙画像は、カシミール語スクリプトのOCRモデル(CRNNおよびTransformerベース)を訓練する際にどれほど効果的か。
- RQ2複数のカシミール語体と多様な背景は実世界のカシミール語文書への一般化を改善するか。
- RQ3構造化データ拡張がカシミール語スクリプトのOCR頑健性に与える影響はどの程度か。
- RQ4データセット形式はOSS OCRパイプライン全体の効率的なファインチューニングとベンチマークを促進できるか。
主な発見
- 約602,000語の画像が10個のアーカイブに分散され、総計約10.6 GB。
- 画像は256x64のPNGでRTLカシミール語テキストを含み、グラウンドトゥルースはCRNN、TrOCR、CSV、JSONL形式。
- 拡張はサンプルの60%に適用され、現実的な文書劣化を模倣;40%はクリーンなまま。
- データはCC-BY-4.0ライセンスで、Hugging Face Datasetsハブを通じてアクセス可能。
- データには使用フォントと生成設定のメタデータが含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。