Skip to main content
QUICK REVIEW

[論文レビュー] Knowledge Fusion of Large Language Models

Fanqi Wan, Xinting Huang|arXiv (Cornell University)|Jan 19, 2024
Topic Modeling被引用数 8
ひとこと要約

FuseLLMは、複数の多様なLLMからの確率分布を外部化し、対象のLLMへ軽量な継続的学習を通じて統合する知識融合フレームワークを提案し、推論・常識・コード生成タスク全般で性能を向上させる。

ABSTRACT

While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.

研究の動機と目的

  • 既存のモデルを活用することで、ゼロから大規模LLMを1つ訓練するコスト効率の高い代替案を動機付ける。
  • 異なるアーキテクチャを持つ複数のソースLLMの知識を外部化し、ターゲットLLMへ統合・融合する。
  • モデル間で確率分布を整合・融合させる、軽量な継続的学習フレームワークを開発する。
  • 複数のベンチマークにおいて、融合が個々のソースや基本的なベースラインを上回ることを実証する。

提案手法

  • 各ソースLLMの知識を、テキスト列に対するトークンレベルの確率分布として表現する。
  • 分布を対応付けるため、MinED(最小編集距離)戦略を用いてモデル間のトークン化を整合させる。
  • 整列した分布を、選択した融合関数(MinCEまたはAvgCE)で融合し、ターゲット分布P_tを形成する。
  • ターゲットLLMを、標準的なCLM損失とQ_tとP_tを一致させる融合損失の加重和を最小化するように訓練する(L = λ L_CLM + (1-λ) L_Fusion)。
  • 全ゼロからの再訓練を必要とせず、コンパクトなコーパス(MiniPile)で継続的訓練を行い、融合知識を転送する。
  • 2つの融合戦略(MinCEとAvgCE)と2つの整合基準(MinEDとEM)を比較し、MinCEとMinEDがより良い結果を生むことを示す。

実験結果

リサーチクエスチョン

  • RQ1複数の多様なオープンソースLLMの知識融合は、各個別ソースモデルを上回るターゲットモデルを生み出せるか?
  • RQ2確率分布を整列・融合させることは、重みの結合やアンサンブルといったLLM融合の優れた代替手段となるか?
  • RQ3トークンの整列、融合関数の選択、およびソースモデル数が、推論・常識・コード生成タスクにおける融合性能にどう影響するか?
  • RQ4コンパクトな継続的訓練用コーパスは、融合知識をターゲットモデルへ効果的に転送するのに十分か?

主な発見

  • FuseLLMは、27のBBHタスクにおいて、元のLlama-2 7Bに対して平均相対改善5.16%を達成。
  • FuseLLMはCommon Senseベンチマークで一貫してベースラインを上回り、平均+1.25%。
  • コード生成(MultiPL-E)では、Llama-2 CLMより平均6.36%の向上を示すが、OpenLLaMAやMPTに必ずしも匹敵するわけではない。
  • 3つの多様な7Bモデル(Llama-2、OpenLLaMA、MPT)を融合すると顕著な改善が得られ、ベンチマーク全体でMinCEがAvgCEを上回る。
  • MinED整列は一貫してExact-Match (EM)整列を上回り、MinCEは全ての評価タスクでAvgCEを上回る。
  • FuseLLMはBBH、CS、MEタスクで知識蒸留済みのLlama-2 13Bベースラインを上回り、BBHでより大きな相対利益を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。