QUICK REVIEW

[논문 리뷰] SimMerge: Learning to Select Merge Operators from Similarity Signals

Oliver Bolton, Aakanksha|arXiv (Cornell University)|2026. 01. 14.

Topic Modeling인용 수 0

한 줄 요약

SimMerge는 체크포인트 간의 저렴한 유사성 신호를 사용하여 합병 연산자와 합병 순서를 선택하는 예측적 합병 선택 방법으로, 7B에서 111B 모델에 걸쳐 고정 연산자보다 성능이 우수하며 온라인 밴딧 적응을 가능하게 한다.

ABSTRACT

Model merging combines multiple models into a single model with aggregated capabilities, making it a powerful tool for large language model (LLM) development. However, scaling model merging is challenging: performance depends on the choice of merge operator, model subset, and merge order, often requiring expensive merge-and-evaluate searches. In this work, we introduce SimMerge, a predictive merge-selection method that identifies high-performing merges using inexpensive, task-agnostic similarity signals between models. Given a small set of unlabeled probes, SimMerge extracts functional and structural features to predict the performance of candidate two-way merges, enabling merge operator, order and model subset selection without iterative evaluation. We show that SimMerge consistently outperforms the best fixed merge operator across 7B-parameter LLMs and generalizes to multi-way merges and 111B-parameter LLMs without retraining. We further introduce a bandit variant that supports adding new tasks and operators online. Our results suggest that learning how to merge enables scalable model composition when checkpoint catalogs are large and evaluation budgets are limited.

연구 동기 및 목표

비용이 많이 드는 병합-평가 검색에의 의존을 줄여 확장 가능한 모델 병합을 촉진한다.
사전 병합 유사성 신호를 사용하여 합병 연산자와 합병 순서를 선택하는 예측기를 개발한다.
학습 없이도 더 큰 규모에서 효율적인 다중 경합 병합으로의 확장을 위하여 쌍별 연산자 선택을 확장한다.
새로운 작업, 모델 또는 연산자에 적응하기 위한 온라인 맥락 밴딧 변형을 제공한다.
7B에서 111B 파라미터 모델로의 전이 가능성과 온라인 설정에서의 이전 가능성을 입증한다.

제안 방법

KL 발산, 활성화의 코사인 유사도, 가중치 공간의 코사인 거리, 유클리드 거리, 주의 집중 패턴 유사성을 포함한 기능적 및 구조적 유사성으로부터 x(m_a, m_b, t) 사전 병합 특징 벡터를 구성하고, 시퀀스를 통계로 고정 차원으로 요약한다.
작업당 {Linear, Slerp, TIES}에 대한 각 연산자 o의 예측 효용을 출력하는 쌍별 유틸리티 예측기 f_plan을 학습하고, 예측 유용도의 argmax로 최적의 연산자를 선택한다.
동일한 쌍별 특징을 사용하여 재귀적으로 중간 유틸리티를 예측함으로써 다중 경합 계획을 점수화하고, 중간 모델을 구성하지 않고도 정렬된 합병 순서를 선택한다.
부분 피드백 하에서 온라인으로 연산자 선택을 적응시키기 위한 신경-선형(neural-linear) 설계를 사용하는 맥락 밴딧 변형을 도입한다; 오프라인 쌍별 데이터로 워밍 스타트하고 선택된 팔마다 LinTS(선형 톰슨 샘플링)를 사용하여 업데이트한다.
7B 및 111B 모델에서 코드, 수학, 다국어, RAG, 그리고 지시 작업에 걸친 2-자, 3-자, 4-자 병합을 평가하고, 고정 연산자와 비교하며 작업 전문가 및 보조 시스템에 대한 정규화된 격차를 보고한다.

Figure 1 : Overview of SimMerge . Given a set of domain-specialized checkpoints and small unlabeled probe set for each domain, we compute pre-merge similarity signals, predict the merge operator for each binary merge step and the merge order, and then execute the selected plan once to obtain a singl

실험 결과

연구 질문

RQ1주어진 전문가–보조 페어에 대해 사전 병합 유사성 신호가 어떤 합병 연산자가 최적의 다운스트림 성능을 낳는지 예측할 수 있는가?
RQ2추가 감독 없이 또는 재학습 없이 쌍별 유사성 기반 예측기가 다중 경합 합병으로 효과적으로 확장될 수 있는가?
RQ3동일한 유사성 특성을 사용하는 온라인 밴딧 변형이 새로운 작업, 모델 및 연산자에 효율적으로 적응하는가?
RQ47B에서 학습된 선택기가 재학습 없이 111B 모델로 전이되는가, 그리고 풀에 더 많은 모델이 있을 때 성능은 어떻게 스케일링되는가?

주요 결과

SimMerge는 2-, 3-, 4-way 병합에서 Code, Math, Multilingual, RAG 도메인 전반에 걸쳐 가장 좋은 고정 합병 연산자를 지속적으로 능가한다.
작업 전반에 걸쳐 평균적으로 SimMerge는 전문가–보조 간 성능 격차의 65.0%를 해소하고, 최고 고정 연산자는 41.8%를 해소한다.
학습된 연산자 선택은 합병 순서를 개선하고, 무작위 순서에 비해 상당한 이점을 보이며(예: Code에서 +47% 포인트).
7B 쌍별 병합에서 학습된 선택기가 재학습 없이 111B 3-way 병합으로 전이되었고, 우수한 전문가/보조 간 균형을 유지한다.
온라인 맥락 밴딧 변형(LinTS)은 낮은 후회율로 연산자를 선택하는 법을 학습하고 부분 피드백 하에서 오라클 성능에 근접한다.

Figure 2 : Percentage of the expert–auxiliary performance gap closed by each merge method across Code, Math, Multilingual, and RAG tasks. SimMerge consistently recovers a larger fraction of expert performance than fixed merge operators across all domains.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.