Skip to main content
QUICK REVIEW

[論文レビュー] Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Shiza Fatimah, Aniket Sen|arXiv (Cornell University)|Mar 3, 2026
Natural Language Processing Techniques被引用数 0
ひとこと要約

LilMoo は透明なパイプラインでゼロから訓練された 0.6B のヒンディー語モデルで、Qwen2.5-0.5B や Qwen3-0.6B のような同規模の多言語ベースラインと比較して強力な性能を発揮します。

ABSTRACT

The dominance of large multilingual foundation models has widened linguistic inequalities in Natural Language Processing (NLP), often leaving low-resource languages underrepresented. This paper introduces LilMoo, a 0.6-billion-parameter Hindi language model trained entirely from scratch to address this gap. Unlike prior Hindi models that rely on continual pretraining from opaque multilingual foundations, LilMoo is developed through a fully transparent and reproducible pipeline optimized for limited compute environments. We construct a high-quality Hindi corpus (GigaLekh) filtered through both heuristic and learned (LLM-as-a-judge) methods, complemented by bilingual augmentation with curated English data. Using this dataset, we explore various training recipes for small-scale language models. Across comprehensive evaluation suites, LilMoo consistently outperforms comparably sized multilingual baselines such as Qwen2.5-0.5B and Qwen3-0.6B, demonstrating that well-designed language-specific pretraining can rival large multilingual models at the sub-billion-parameter range.

研究の動機と目的

  • NLPにおける言語的不平等を是正するため、ゼロから訓練されたネイティブなヒンディー語モデルを開発する。
  • 再現性のあるデータクレンジングを実現するため、質の高いヒンディー語コーパス(GigaLekh)と軽量なフィルタリングツールを構築する。
  • サブビリオンダラー規模でのモノリンガルヒンディー pretrained と多言語ベースラインを比較評価する。
  • 再現性を促進するため、完全にオープンなデータセット、モデル、訓練レシピを公開する。

提案手法

  • ヒューリスティックおよび学習済み(LLM-判定者)フィルタを用いて高品質なヒンディー語コーパス(GigaLekh)を構築する。
  • 2つのレシピ(モノリンガルと混合言語)で共有する 0.6B パラメータの Llama ベースアーキテクチャを持つネイティブ言語モデルを2つ訓練する。
  • ヒンディー語-英語-コードデータからゼロから学習させた専用トークナイザを設計し、49,152 トークン語彙を用意する。
  • 横断言語の堅牢性を評価するための評価ハーストとバイリンガル拡張パイプラインを開発する。
  • 再現性のため、データセット、モデル、コードをすべて寛容なライセンスのもとで公開する。
Figure 1: Pretraining loss curve for the LilMoo pair.
Figure 1: Pretraining loss curve for the LilMoo pair.

実験結果

リサーチクエスチョン

  • RQ1ゼロから訓練されたネイティブなサブビリオンダラー規模のヒンディー語モデルは、同等サイズの多言語ベースと同等の性能に到達できるか。
  • RQ2英語のバイリンガル拡張が、コンパクトなモデル regime のヒンディー語モデルの性能に与える影響は。
  • RQ3データ品質、フィルタリング、トークナイザ設計はヒンディー語のモデルの効率性と効果にどう影響するか。
  • RQ4低資源言語の完全オープンな訓練パイプラインの資源消費と再現性への影響は何か。

主な発見

  • LilMoo-v0.1(ヒンディー語のみ)と LilMoo-v0.2(ヒンディー語+英語)は2つの異なるレシピで訓練されている。
  • LilMoo は Qwen2.5-0.5B および Qwen3-0.6B のような同規模の多言語ベースラインに対して、サブビリオンダラー規模のタスクで競争力のある性能を示す。
  • 49,152 の語彙サイズを持つ専用のヒンディー語トークナイザは、いくつかの多言語ベースラインと比較して高い効率性を示す(fertility 1.46、PCW 0.50)。
  • 訓練スタックはメモリと計算資源の節約技術(BF16、TF32、GQA、活性化のチェックポイント、FlashAttention-2)を NVIDIA A100 GPU 上で用い、MFU 約70% を達成している。
  • すべてのデータセット、モデル、コードはオープンな再現性を可能にする Apache 2.0 ライセンスの下で公開されている。
Figure 2: Gradient Statistics for the LilMoo pair.
Figure 2: Gradient Statistics for the LilMoo pair.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。