[논문 리뷰] Knowledge Fusion of Large Language Models
FuseLLM은 경량의 지속적 학습을 통해 다수의 다양한 LLM으로부터의 확률 분포를 외부화하고 타깃 LLM에 병합하는 지식 융합 프레임워크를 제안하며, 추론, 상식 및 코드 생성 과제에서 성능을 향상시킨다.
While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.
연구 동기 및 목표
- 기존 모델을 활용하여 하나의 큰 LLM을 처음부터 학습시키는 비용 효율적인 대안을 제시한다.
- 다양한 아키텍처를 가진 다수의 소스 LLM의 지식을 타깃 LLM으로 외부화하고 융합한다.
- 모델 간 확률 분포를 정렬하고 융합하는 경량의 지속적 학습 프레임워크를 개발한다.
- 융합이 여러 벤치마크에서 개별 소스 및 기본 baselines보다 우수하다는 것을 입증한다.
제안 방법
- 각 소스 LLM의 지식을 텍스트 시퀀스에 대한 토큰 수준 확률 분포로 표현한다.
- MinED(최소 편집 거리) 전략을 사용하여 모델 간 토큰화를 정렬하고 분포를 매핑한다.
- 정렬된 분포를 선택된 융합 함수(MinCE 또는 AvgCE)로 융합하여 타깃 분포 P_t를 형성한다.
- 타깃 LLM을 표준 CLM 손실과 Q_t를 P_t와 일치시키는 융합 손실의 가중합을 최소화하도록 학습한다 (L = λ L_CLM + (1-λ) L_Fusion).
- 전체 재학습 없이 융합된 지식을 전달하기 위해 소형 말뭉치(MiniPile)에서 지속적 학습을 사용하여 융합된 지식을 전달한다.
- 두 가지 융합 전략(MinCE 및 AvgCE)과 두 가지 정렬 기준(MinED 및 EM)을 비교한다; MinCE와 MinED가 더 나은 결과를 산출함을 보인다.
실험 결과
연구 질문
- RQ1다양한 개방 소스 LLM들의 지식 융합이 각 개별 소스 모델보다 우수한 타깃 모델을 만들어낼 수 있는가?
- RQ2확률 분포를 정렬하고 융합하는 것이 LLM 융합에서 가중치 합치기(weight merging)나 앙상블보다 우수한 대안을 제공하는가?
- RQ3토큰 정렬, 융합 함수 선택, 소스 모델의 수가 추론, 상식, 코드 생성 과제에서 융합 성능에 어떤 영향을 미치는가?
- RQ4소형 지속적 학습 말뭉치가 타깃 모델에 융합 지식을 효과적으로 전달하는 데 충분한가?
주요 결과
- FuseLLM은 27개의 BBH 과제에서 원래 Llama-2 7B 대비 평균 상대 향상 5.16%를 달성했다.
- FuseLLM은 Common Sense 벤치마크에서 일관되게 baseline을 상회한다 (평균 +1.25%).
- 코드 생성(MultiPL-E)에서 FuseLLM은 Llama-2 CLM 대비 평균 6.36%의 이득을 보이나 OpenLLaMA 또는 MPT와 항상 일치하지는 않는다.
- 세 가지 다양한 7B 모델(Llama-2, OpenLLaMA, MPT)을 융합하면 눈에 띄는 이득이 생기며 벤치마크 전반에서 MinCE가 AvgCE를 능가한다.
- MinED 정렬이 항상 정확 일치(EM) 정렬을 능가하고, MinCE가 모든 평가된 과제에서 AvgCE를 능가한다.
- FuseLLM은 BBH, CS, ME 과제에서 지식 증류된 Llama-2 13B-baseline보다 우수하며, BBH에서 더 큰 상대 이익을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.