Skip to main content
QUICK REVIEW

[논문 리뷰] ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging

Junyao Yang, Chen Qian|arXiv (Cornell University)|2026. 01. 09.
Explainable Artificial Intelligence (XAI)인용 수 0
한 줄 요약

ReasonAny는 간단한 모델 병합으로 모든 기본 모델에 추론 능력을 합치는 훈련 없이도 가능하도록 하며, 제외 메커니즘으로 매개변수 충돌을 해결하고 안전 정렬을 보존합니다.

ABSTRACT

Large Reasoning Models (LRMs) with long chain-of-thought reasoning have recently achieved remarkable success. Yet, equipping domain-specialized models with such reasoning capabilities, referred to as "Reasoning + X", remains a significant challenge. While model merging offers a promising training-free solution, existing methods often suffer from a destructive performance collapse: existing methods tend to both weaken reasoning depth and compromise domain-specific utility. Interestingly, we identify a counter-intuitive phenomenon underlying this failure: reasoning ability predominantly resides in parameter regions with low gradient sensitivity, contrary to the common assumption that domain capabilities correspond to high-magnitude parameters. Motivated by this insight, we propose ReasonAny, a novel merging framework that resolves the reasoning-domain performance collapse through Contrastive Gradient Identification. Experiments across safety, biomedicine, and finance domains show that ReasonAny effectively synthesizes "Reasoning + X" capabilities, significantly outperforming state-of-the-art baselines while retaining robust reasoning performance.

연구 동기 및 목표

  • 전체 재훈련 없이 추론 가능 모델의 효율적인 개발을 촉진한다.
  • 도메인 특화 능력과 추론 기술의 단일 단계 합성을 가능하게 한다.
  • 간단한 제외 기반 접근으로 모델 병합 시 매개변수 충돌을 해결한다.
  • 안전 정렬에 미치는 영향과 탈옥(jailbreaking) 또는 안전 저하의 잠재적 감소를 평가한다.

제안 방법

  • 어떤 모델에든 추론 능력을 주입하기 위한 간단한 모델 병합 프레임워크를 제안한다.
  • 추론 서브스페이스와 도메인 특화 서브스페이스 간의 충돌 매개변수를 해결하기 위해 제외 프로세스를 사용한다.
  • 기본 모델의 전체 재훈련을 피함으로써 훈련 없는 합성에 집중한다.
  • 병합 과정에서 안전 정렬 매개변수를 식별하고 보존하여 탈옥 위험을 완화한다.
  • 식별 단계에서 사용되는 경사 기반 어트리뷰션으로 인한 계산상의 트레이드오프를 논의한다.

실험 결과

연구 질문

  • RQ1ReasonAny가 재훈련 없이 임의의 기본 모델에 추론 능력을 효과적으로 통합할 수 있는가?
  • RQ2제외 기반 병합이 도메인 특화 성능을 손상시키지 않으면서 매개변수 충돌을 감소시킬 수 있는가?
  • RQ3병합 후 ReasonAny가 안전 정렬을 얼마나 잘 보존하고 안전 저하를 완화하는가?
  • RQ4식별 단계와 가중치 평균화 방법의 계산 오버헤드 차이는 무엇인가?

주요 결과

  • ReasonAny는 기본 모델에서 도메인 특화 기능과 함께 추론의 훈련 없는 합성을 가능하게 한다.
  • 제외 메커니즘은 추론 서브스페이스와 도메인 서브스페이스 간의 매개변수 충돌을 해결하여 간섭을 최소화한다.
  • ReasonAny는 안전 정렬 매개변수를 보존하여 다른 병합 기술에 비해 탈옥이나 안전 저하의 위험을 줄인다.
  • 이 방법은 식별 단계에서의 경사 기반 어트리뷰션으로 인한 계산 오버헤드를 강조한다.
  • 제약으로는 복잡한 작업에서 서브스페이스 간의 잠재적 중첩과 현재의 두 모델 병합에 초점이 맞춰져 있다는 점이 있다.
  • 전반적 영향은 추론 가능 모델 개발에 있어서 자원 사용과 탄소 발자국이 더 낮아질 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.