Skip to main content
QUICK REVIEW

[논문 리뷰] TIES-Merging: Resolving Interference When Merging Models

Prateek Yadav, Derek Tam|arXiv (Cornell University)|2023. 06. 02.
Domain Adaptation and Few-Shot Learning인용 수 22
한 줄 요약

Ties-Merging (TrIm, Elect Sign & Merge)는 중복 매개변수를 잘라내고 부호 충돌을 해결하며 elect된 부호와 정렬된 매개변수만 병합함으로써 여러 미세 조정 모델을 병합합니다. 이를 통해 NLP와 비전 태스크 전반에서 기존의 병합 방법들을 능가합니다.

ABSTRACT

Transfer learning - i.e., further fine-tuning a pre-trained model on a downstream task - can confer significant advantages, including improved downstream performance, faster convergence, and better sample efficiency. These advantages have led to a proliferation of task-specific fine-tuned models, which typically can only perform a single task and do not benefit from one another. Recently, model merging techniques have emerged as a solution to combine multiple task-specific models into a single multitask model without performing additional training. However, existing merging methods often ignore the interference between parameters of different models, resulting in large performance drops when merging multiple models. In this paper, we demonstrate that prior merging techniques inadvertently lose valuable information due to two major sources of interference: (a) interference due to redundant parameter values and (b) disagreement on the sign of a given parameter's values across models. To address this, we propose our method, TRIM, ELECT SIGN & MERGE (TIES-Merging), which introduces three novel steps when merging models: (1) resetting parameters that only changed a small amount during fine-tuning, (2) resolving sign conflicts, and (3) merging only the parameters that are in alignment with the final agreed-upon sign. We find that TIES-Merging outperforms several existing methods in diverse settings covering a range of modalities, domains, number of tasks, model sizes, architectures, and fine-tuning settings. We further analyze the impact of different types of interference on model parameters, and highlight the importance of resolving sign interference. Our code is available at https://github.com/prateeky2806/ties-merging

연구 동기 및 목표

  • 멀티태스크 능력과 일반화를 위해 태스크 특화 미세 조정 모델의 병합이 바람직한 이유를 제시한다.
  • na"iv" 모델 병합에서 간섭의 원인을 식별하고 그 영향을 정량화한다.
  • 멀티태스크 성능을 향상시키기 위한 3단계 병합 절차(트림, 부호 선택, 비겹치는 병합)를 제안하고 검증한다.
  • 검증 데이터의 유무를 포함하여 모달리티, 모델 크기 및 미세 조정 규칙(전체 대 PEFT) 간의 Ties-Merging을 평가한다.

제안 방법

  • 각 태스크를 태스크 벡터 tau_t = theta_ft^t - theta_init로 표현한다.
  • Trim: 각 tau_t에서 크기가 상위 k%인 값만 남기고 나머지는 0으로 재설정한다.
  • Elect: 여러 태스크의 잘려진 태스크 벡터의 합의 부호를 취해 elect된 부호 gamma_m을 계산한다.
  • Disjoint Merge: 각 매개변수에 대해 elect된 부호와 일치하는 잘려진 값들만 평균하고 0인 값은 무시한다.
  • Merge by theta_m = theta_init + lambda * tau_m, 여기서 tau_m은 정렬된 부호에서 형성된 비겹치는 평균 벡터이다.
  • NLP와 비전 벤치마크에서 Simple Averaging, Fisher Merging, RegMean, Task Arithmetic 등의 베이스라인과 비교한다.

실험 결과

연구 질문

  • RQ1병합 중 모델 매개변수 간 간섭을 특징짓고 완화할 수 있는가?
  • RQ2중복 매개변수를 잘라내고 부호 충돌을 해결하면 여러 미세 조정 모델을 병합할 때 멀티태스킹 성능이 향상되는가?
  • RQ3타자모달리티(언어와 비전), 모델 크기, 미세 조정 규칙(전체 vs PEFT)에 따라 Ties-Merging이 기존 방법에 비해 어떻게 성능을 발휘하는가?
  • RQ4매개변수의 크기와 태스크 성능을 유지하거나 향상시키기 위해 부호 해상도가 필수적인가?
  • RQ5병합 중 검증 세트가 없을 때 Ties-Merging의 견고성은 어떠한가?

주요 결과

  • Ties-Merging은 검증 세트의 여부에 관계없이 NLP 및 비전 태스크에서 기존의 병합 방법들을 일관되게 능가합니다.
  • 도메인 내 평가에서 Ties-Merging은 NLP에서 최대 베이스라인 대비 절대 향상 2.3%, 비전에서 1.7%를 평균합니다.
  • 도메인 외 일반화에서 Ties-Merging은 strongest baseline 대비 절대 향상 1.0%(T5-base) 및 4.4%(T5-large)를 달성합니다.
  • 검증 데이터가 없을 때도 고정된 레시피(top-20% 트림, lambda=1)로도 비전 및 NLP 태스크에서 Task Arithmetic와 같은 베이스라인보다 뛰어납니다.
  • 절단 제거, 부호 선출, 비겹치는 평균 구성요소를 제거하는 일부 분석은 성능 저하를 유발하며, 스케일링과 비겹치는 평균이 이득에 크게 기여합니다.
  • 부호 간섭 해결은 중요합니다. 상위 크기의 매개변수 방향을 뒤집으면 성능이 재앙적으로 감소할 수 있어 올바른 부호 추정의 중요성을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.