QUICK REVIEW

[논문 리뷰] Script Sensitivity: Benchmarking Language Models on Unicode, Romanized and Mixed-Script Sinhala

Minuri Rajapakse, Ruvan Weerasinghe|arXiv (Cornell University)|2026. 01. 21.

Natural Language Processing Techniques인용 수 0

한 줄 요약

이 논문은 오픈 소스 모델은 perplexity로, 클로즈드 소스 모델은 질적 문장 완성으로 Unicode 및 로마자 Sinhala에서 현대 언어 모델의 교차 스크립트 성능을 비교하는 포괄적 벤치마크를 제시합니다.

ABSTRACT

The performance of Language Models (LMs) on low-resource, morphologically rich languages like Sinhala remains largely unexplored, particularly regarding script variation in digital communication. Sinhala exhibits script duality, with Unicode used in formal contexts and Romanized text dominating social media, while mixed-script usage is common in practice. This paper benchmarks 24 open-source LMs on Unicode, Romanized and mixed-script Sinhala using perplexity evaluation across diverse text sources. Results reveal substantial script sensitivity, with median performance degradation exceeding 300 times from Unicode to Romanized text. Critically, model size shows no correlation with script-handling competence, as smaller models often outperform architectures 28 times larger. Unicode performance strongly predicts mixed-script robustness but not Romanized capability, demonstrating that single-script evaluation substantially underestimates real-world deployment challenges. These findings establish baseline LM capabilities for Sinhala and provide practical guidance for model selection in multi-script low-resource environments.

연구 동기 및 목표

현대 LMs의 Sinhala(유니코드 및 로마자 스크립트)에서의 고유 언어 모델링 능력 평가.
현대 디지털 사용을 반영한 다양한 병렬 Sinhala 코퍼스 생성.
Sinhala NLP 배치를 위한 오픈 및 클로즈드 모델 성능 비교를 제공.
모델 선택 및 학습 데이터 필요성을 inform하기 위한 교차 스크립트 차이 분석.

제안 방법

로마자에서 유니코드로 수동 표기를 포함한 1000문장의 병렬 Sinhala 코퍼스 구축.
LaBSE 임베딩 및 K-Means 클러스터링을 이용한 200문장 다양한 평가 서브셋 생성.
유니코드 및 로마자 Sinhala에 대한 perplexity로 오픈 소스 모델 평가.
원어 화자가 채점한 문장 완성 프롬프트를 활용한 클로즈드 소스 모델의 질적 평가.
스크립트에 민감한 강점과 약점을 식별하기 위해 모델 출력 분석.

실험 결과

연구 질문

RQ1유니코드 대 로마자 Sinhala에서 현대 언어 모델의 perplexity 차이는 무엇인가?
RQ2오픈 소스 모델이 교차 스크립트 성능에서 일관된 패턴을 보이는가, 어떤 아키텍처가 각 스크립트에 대해 우수한가?
RQ3클로즈드 소스 모델이 유니코드 대 로마자 Sinhala에서 일관성, 일관성 있는 문법 면에서 질적으로 어떤 차이를 보이는가?
RQ4Sinhala 텍스트 생성 시 주어-동사 일치 등 일반적인 언어적 오류는 모델 간 어떤 차이를 보이는가?
RQ5관찰된 교차 스크립트 성능 차이를 초래하는 학습 데이터 특성은 무엇인가?

주요 결과

모델	매개변수	Sinhala Unicode	Sinhala 로마자 표기
bloom-560m	560M	8.88	915.6
Seed-X-PPO-7B	7B	668.37	121.94
gemma-3-4b-pt	4B	11.06	132.74
gemma-7b	7B	7.78	153.6
zephyr-7b-beta	7B	6.16	133.91
SmolLM3-3B	3B	4.0	170.77
Hormoz-8B	8B	3.63	184.34
Llama-3.1-8B	8B	2.37	77.18
phi-4	14B	3.19	113.97
Mistral-7B-v0.3	7B	3.62	74.76
Mistral-Nemo-Base-2407	12B	2.19	105.35
Minitron-8B-Base	8B	2.53	244.33
Qwen2-7B	7B	4.36	141.78

Mistral-Nemo-Base-2407가 Sinhala의 유니코드에서 가장 강한 perplexity를 보임(2.19).
Mistral-7B-v0.3이 Sinhala의 로마자에서 가장 강한 perplexity를 보임(74.76).
Llama-3.1-8B가 두 스크립트 모두에서 전반적으로 강한 perplexity 성능을 보임(유니코드 2.37, 로마자 77.18).
Gemini-1.5-pro 및 DeepSeek는 클로즈드 소스 모델 중 유니코드 생성에서 우수하고, Claude-3.5-Sonnet은 로마자 Sinhala에서 우수함.
여러 모델이 Sinhala 주어-동사 일치에 어려움을 겪으며, 생성에서 형태학적 문제의 더 넓은 도전을 시사함.
질적 샘플에서 모델 간 일관성과 문법 정확도 차이가 확인되며, 일부는 Sinhala 문장 구조 충실도는 부족한 완성을 보임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.