QUICK REVIEW

[논문 리뷰] Preferences for Idiomatic Language are Acquired Slowly -- and Forgotten Quickly: A Case Study on Swedish

Jenny Kunz|arXiv (Cornell University)|2026. 02. 03.

Natural Language Processing Techniques인용 수 0

한 줄 요약

논문은 언어 모델의 스웨덴어 관용적 역량이 사전 학습 중 천천히 발전하고, 번역 데이터로 인한 지시 조정으로 급격히 손실된다는 것을 보여준다.

ABSTRACT

In this study, we investigate how language models develop preferences for extit{idiomatic} as compared to extit{linguistically acceptable} Swedish, both during pretraining and when adapting a model from English to Swedish. To do so, we train models on Swedish from scratch and by fine-tuning English-pretrained models, probing their preferences at various checkpoints using minimal pairs that differ in linguistic acceptability or idiomaticity. For linguistic acceptability, we adapt existing benchmarks into a minimal-pair format. To assess idiomaticity, we introduce two novel datasets: one contrasting conventionalized idioms with plausible variants, and another contrasting idiomatic Swedish with Translationese. Our findings suggest that idiomatic competence emerges more slowly than other linguistic abilities, including grammatical and lexical correctness. While longer training yields diminishing returns for most tasks, idiom-related performance continues to improve, particularly in the largest model tested (8B). However, instruction tuning on data machine-translated from English -- the common approach for languages with little or no native instruction data -- causes models to rapidly lose their preference for idiomatic language.

연구 동기 및 목표

사전 학습 중 및 영어에서 스웨덴어로의 적응 과정에서 언어 모델이 관용적 표현과 일반적인 언어적 수용성 사이를 어떻게 습득하는지 조사한다.
관용적 역량에 대한 지속적 사전 학습 대비 처음부터의 학습이 미치는 영향을 조사한다.
머신 번역 데이터를 이용한 지시 조정이 스웨덴어의 관용 선호도에 어떤 영향을 미치는지 평가한다.

제안 방법

스몰엠엘엠 SmolLM 135M 매개변수 모델을 처음부터 학습시키고 스웨덴어 데이터로 지속적 사전 학습을 수행한다.
새로운 스웨덴어 관용구 데이터셋과 Translationese 대비를 포함한 최소-쌍 벤치마크를 사용하여 관용적 및 언어학적으로 수용 가능한지를 탐색한다.
각 최소-쌍에서 선호되는 문장을 결정하기 위해 토큰 단위의 당뇨 perplexity를 사용하여 여러 체크포인트에서 모델을 평가한다.

실험 결과

연구 질문

RQ1RQ1 언어 모델이 관용적 선호를 얼마나 잘, 얼마나 빨리 습득하는지와 일반적인 언어 수용성과의 차이는 무엇인가?
RQ2RQ2 머신 번역 데이터를 활용한 지시 조정이 모델의 관용적 선호도에 어떤 영향을 미치는가?

주요 결과

관용구는 모델 전반에서 어휘적 또는 구문적 정확성보다 습득 속도가 느리다.
영어로의 사전 학습은 전반적인 성능을 향상시키고 점진적인 관용적 언어 습득을 촉진한다.
번역 데이터로의 지시 조정은 관용적 선호를 급격하게 감소시키는 반면 일반적인 언어 수용성은 비교적 안정적으로 유지된다.
더 크거나 더 강력한 모델(AI Sweden LLaMA 8B)은 지속적 사전 학습에서 관용 역량의 더 큰 이득을 보인다.
번역체 샘플은 잘 학습되지 않으며 번역 기반의 튜닝으로 더 악화될 수 있어 관용성의 취약점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.