Skip to main content
QUICK REVIEW

[논문 리뷰] Improving Training Efficiency and Reducing Maintenance Costs via Language Specific Model Merging

Alphaeus Dmonte, Vidhi Gupta|arXiv (Cornell University)|2026. 01. 22.
Topic Modeling인용 수 0
한 줄 요약

본 논문은 언어별 모델 병합(language-specific model merging)을 다국어 LLM 재훈련의 효율적인 대안으로 분석하여 다수의 작업과 데이터셋에서 품질 저하 없이 학습 시간과 유지 관리 비용을 크게 줄이는 효과를 보인다.

ABSTRACT

Fine-tuning a task-specific multilingual large language model (LLM) involves training the model on a multilingual dataset with examples in all the required languages. Updating one or more supported languages with additional data or adding support for a new language involves retraining the model, which can be computationally inefficient and creates a severe maintenance bottleneck. Recent research on merging multilingual multitask models has shown promise in terms of improved quality, but its computational and maintenance efficiency remains unstudied. In this work, we provide the first focused analysis of this merging strategy from an efficiency perspective, evaluating it across three independent tasks. We demonstrate significant efficiency gains while maintaining parity in terms of quality: this merging approach reduces the initial training time by up to 50\%. We also demonstrate that updating an individual language and re-merging as part of model maintenance reduces training costs by more than 60\%, compared to re-training the full multilingual model. We show this on both public and proprietary industry datasets confirming that the approach works well for industrial use cases in addition to academic settings already studied in previous work.

연구 동기 및 목표

  • 기업 환경에서 다국어 LLM 미세 조정의 높은 비용과 유지 관리 병목 현상을 제시한다.
  • 언어별 모델 병합을 결합된 다국어 데이터 세트 전체를 재훈련하는 것보다 더 효율적인 대안으로 제시하고 평가한다.
  • 여러 작업과 언어에 걸쳐 학습 시간 및 비용 절감을 정량화한다.
  • 공개 데이터셋과 독점 데이터셋 전반의 강건성을 평가하여 산업 적용 가능성을 검증한다.

제안 방법

  • 세 가지 병합 기법(TIES, DARE, KnOTS)을 사용하여 언어별 어댑터를 생성하고 이를 단일 다국어 모델로 병합한다.
  • 다섯 가지 언어로 LoRA를 사용하여 기본 Llama-3.1-8b-Instruct를 세 가지 작업(요약, 상식 추론, 감정)으로 미세 조정하고 COMB 및 INDV 기준선과 비교한다.
  • 가중치(weighting), 밀도(density) 등의 하이퍼파라미터를 실험하여 작업당 여덟 개의 병합 모델을 생성한다.
  • 작업별 지표(요약에 대해 ROUGE-1, ROUGE-L, BertScore; 추론에 대해 정확도; 감정 분석에 대해 매크로 F1, 정밀도, 재현율)를 사용하여 평가한다.
  • 전통적인 재훈련-전원 접근법과 한 번 학습하고 필요시에 병합하는 접근법 간의 학습 시간 및 비용을 비교하고, 언어 어댔터만 업데이트되는 유지 관리 시나리오를 포함한다.
Figure 1: Traditional “retrain-all” training approach vs. Language Specific “train-once, merge-as-needed” approach.
Figure 1: Traditional “retrain-all” training approach vs. Language Specific “train-once, merge-as-needed” approach.

실험 결과

연구 질문

  • RQ1언어별 모델 병합이 작업 성능 측면에서 재훈련-전원(multilingual baseline) 대비 동등하거나 향상을 달성하는가?
  • RQ2언어별 병합을 사용할 때의 상대적 학습 시간 및 비용 절감은 결합된 다국어 데이터셋에서 재훈련하는 경우와 비교하여 어느 정도인가?
  • RQ3병합 기법은 다양한 작업(요약, 추론, 감정)과 언어(EN, DE, FR, JA, ZH)에서 어떻게 성능을 발휘하는가?
  • RQ4단일 언어 어댑터를 업데이트하는 것이 전체 병합 모델의 성능 및 유지 관리 효율성에 미치는 영향은 무엇인가?
  • RQ5결과가 더 작은 모델과 독점 데이터셋에 일반화되는가?

주요 결과

PhaseModelTraining TimeTraining Cost
Initial SetupCombined Model3.4h$113.4
Initial SetupMerged Model2.2h (35.3% down)$107.1 (5.6% down)
Update/Add LanguageCombined Model3.8h$119.7
Update/Add LanguageMerged Model1.0h (73.7% down)$31.5 (73.7% down)
Case Study Initial SetupCombined Model (Case Study)45h$1416
Case Study Initial SetupMerged Model (Case Study)22.5h (50% down)$1400 (1.1% down)
Case Study Update/Add LanguageCombined Model (Case Study)54.5h$1717
Case Study Update/Add LanguageMerged Model (Case Study)20.5h (62.4% down)$645 (62.4% down)
  • 병합된 모델은 작업 전반에서 결합된 훈련 기준선과 비슷한 성능을 달성하며, 일부 언어에서 개선이 나타남(특히 요약과 추론에서).
  • 초기 설정 시 학습 시간은 최대 35%까지 감소하고, 개별 언어를 업데이트하고 재병합하는 경우 유지 관리 시간 감소가 70%를 넘는 반면, 전체 다국어 모델을 재훈련하는 것과 비교한다.
  • 요약의 경우 여러 병합 구성(TIES-KnOTS, DARE-TIES-KnOTS 등)이 영어, 일본어, 중국어에서 기준선보다 우수하며; BertScore 향상은 0.1~0.6 포인트 범위이다.
  • 추론의 경우 병합 모델은 일반적으로 기준선과 동등하며, 정확도에서 최대 약 2.2포인트의 개선도 나타나지만 독일어와 프랑스어에서는 때때로 기준선을 선호한다.
  • 감정 분석의 경우 결합 모델이 종종 최고 성능을 나타내며, 일부 병합 구성이 특정 언어에서 개별 언어 기준선을 능가하는 경우가 있다.
  • 소거 연구는 단일 언어 어댑터(예: EN)를 업데이트하는 것이 전체 병합 성능을 향상시키고 다른 언어로 이득을 전파할 수 있음을 보여주며, 모델 크기 실험은 8b 및 3b LLM에서도 병합이 가능하다고 나타내고 크기에 따른 일부 성능 차이를 보인다.
Figure 2: The aggregated hallucination rate across the languages (lower is better). The plot shows the scores for four models, two baselines, and the best performing merged model TIES. The scores for the model merged with updated Japanese data are also reported. The ’mix’ language refers to having m
Figure 2: The aggregated hallucination rate across the languages (lower is better). The plot shows the scores for four models, two baselines, and the best performing merged model TIES. The scores for the model merged with updated Japanese data are also reported. The ’mix’ language refers to having m

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.