QUICK REVIEW

[論文レビュー] Script Sensitivity: Benchmarking Language Models on Unicode, Romanized and Mixed-Script Sinhala

Minuri Rajapakse, Ruvan Weerasinghe|arXiv (Cornell University)|Jan 21, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

この論文は、現代の言語モデルを Unicode およびローマ字表記の Sinhala に対して包括的にベンチマークし、オープンソースモデルは perplexity、クローズドソースモデルは定性的な文完了を用いて脚本間の性能を比較します。

ABSTRACT

The performance of Language Models (LMs) on low-resource, morphologically rich languages like Sinhala remains largely unexplored, particularly regarding script variation in digital communication. Sinhala exhibits script duality, with Unicode used in formal contexts and Romanized text dominating social media, while mixed-script usage is common in practice. This paper benchmarks 24 open-source LMs on Unicode, Romanized and mixed-script Sinhala using perplexity evaluation across diverse text sources. Results reveal substantial script sensitivity, with median performance degradation exceeding 300 times from Unicode to Romanized text. Critically, model size shows no correlation with script-handling competence, as smaller models often outperform architectures 28 times larger. Unicode performance strongly predicts mixed-script robustness but not Romanized capability, demonstrating that single-script evaluation substantially underestimates real-world deployment challenges. These findings establish baseline LM capabilities for Sinhala and provide practical guidance for model selection in multi-script low-resource environments.

研究の動機と目的

現代の LM の Sinhala（Unicode およびローマ字表記）に対する intrinsic な言語モデリング能力を評価する。
現代のデジタル利用を反映した多様な並列 Sinhala コーパスを作成する。
Sinhala NLP の展開を導くため、オープンモデルとクローズドモデルの性能比較を提供する。
脚本間の格差を分析してモデル選択とトレーニングデータニーズを informing する。

提案手法

Romanized から Unicode への手動転写を含む 1000 文の並列 Sinhala コーパスを構築する。
LaBSE 埋め込みと K-Means クラスタリングを用いて 200 文の多様な評価サブセットを作成する。
Unicode およびローマ字 Sinhala に対してオープンソースモデルを perplexity で評価する。
ネイティブスピーカーが採点する文完了プロンプトでクローズドソースモデルを定性的に評価する。
モデル出力を分析して、脚本感受性のある長所と弱点を特定する。

実験結果

リサーチクエスチョン

RQ1現代の言語モデルは Unicode とローマ字 Sinhala の perplexity でどのように異なるか。
RQ2オープンソースモデルは一貫した脚本間の性能を示すか、各脚本に対してどのアーキテクチャが優れているか。
RQ3クローズドソースモデルは Unicode 対ローマ字 Sinhala の一貫性と文意・文法の観点で定性的にどう異なるか。
RQ4Sinhala テキストを生成する際に、主語-動詞一致などの一般的な言語的誤りは各モデルでどの程度見られるか。
RQ5観測された脚本間の性能差を生み出すトレーニングデータの特徴は何か。

主な発見

Model	Parameters	Sinhala Unicode	Sinhala Romanized
bloom-560m	560M	8.88	915.6
Seed-X-PPO-7B	7B	668.37	121.94
gemma-3-4b-pt	4B	11.06	132.74
gemma-7b	7B	7.78	153.6
zephyr-7b-beta	7B	6.16	133.91
SmolLM3-3B	3B	4.0	170.77
Hormoz-8B	8B	3.63	184.34
Llama-3.1-8B	8B	2.37	77.18
phi-4	14B	3.19	113.97
Mistral-7B-v0.3	7B	3.62	74.76
Mistral-Nemo-Base-2407	12B	2.19	105.35
Minitron-8B-Base	8B	2.53	244.33
Qwen2-7B	7B	4.36	141.78

Mistral-Nemo-Base-2407 は Unicode の Sinhala に対して最も強い perplexity を達成（2.19）。
Mistral-7B-v0.3 はローマ字 Sinhala に対して最も強い perplexity を達成（74.76）。
Llama-3.1-8B は両脚本で総合的に強い perplexity 性能を示す（Unicode 2.37、Romanized 77.18）。
Gemini-1.5-pro および DeepSeek はクローズドソースモデルの Unicode 生成で優れ、Claude-3.5-Sonnet はローマ字 Sinhala に優れている。
複数のモデルは Sinhala の主語-動詞一致の問題に苦戦しており、生成における形態論関連の課題を示唆する。
定性的サンプルは、モデル間で一貫性や文法的正確さが異なることを示し、一部は Sinhala の文構造忠実性を欠く完了を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。