[論文レビュー] Generative Representational Instruction Tuning
GRIT は埋め込みと生成を1つの大規模言語モデルで統合し、最先端の埋め込み性能と強力な生成結果を達成する一方で、検索 augmented 生成をより高速化できる。 本手法は命令ベースの信号と2つの同時損失を通じて、両タスクを扱うモデルを訓練する。
All text-based language problems can be reduced to either generation or embedding. Current models only perform well at one or the other. We introduce generative representational instruction tuning (GRIT) whereby a large language model is trained to handle both generative and embedding tasks by distinguishing between them through instructions. Compared to other open models, our resulting GritLM 7B sets a new state of the art on the Massive Text Embedding Benchmark (MTEB) and outperforms all models up to its size on a range of generative tasks. By scaling up further, GritLM 8x7B outperforms all open generative language models that we tried while still being among the best embedding models. Notably, we find that GRIT matches training on only generative or embedding data, thus we can unify both at no performance loss. Among other benefits, the unification via GRIT speeds up Retrieval-Augmented Generation (RAG) by > 60% for long documents, by no longer requiring separate retrieval and generation models. Models, code, etc. are freely available at https://github.com/ContextualAI/gritlm.
研究の動機と目的
- テキスト埋め込みと生成タスクの双方で優れた性能を発揮する1つのモデルを提案することを動機づける(個別システムではなく)
- 埋め込み表現学習と生成命令チューニングを組み合わせる訓練パラダイムを開発すること
- 統一型 GRIT モデルがタスク間のベンチマークにおいて、埋め込み専用・生成専用のベースラインを上回る/同等にすることを示す
- GRIT の検索 augmented 生成とモデル提供基盤の実務的な利点を示すこと
提案手法
- 埋め込み(表現学習)データと生成指示データという2つのデータストリームを用いて事前学習済み LLM をファインチューニングする
- 埋め込みには双方向注意と平均プーリングを、生成には因果注意と言語モデルヘッドを用いる
- 損失関数 L_GRIT = lambda_Rep L_Rep + lambda_Gen L_Gen を用いた結合損失を最適化し、損失重みの制御とサンプルレベル/トークンレベルの生成損失を混合する
- データソースの実験(埋め込み: MEDI, MEDI2, E5; 生成: Tülu 2, UltraChat, OpenAssistant)とベースモデル(Mistral 7B, Mixtral 8x7B など)を探索する
- 埋め込みをMTEBの56デatasetで、生成を標準(例:MMLU, GSM8K, BBH, TyDi QA, HumanEval の派生版)で評価する
- アテンション種別、プーリング、埋め込みヘッド、バッチサイズ、精度などのアーキテクチャ的選択と訓練レジームを調査し、双目的をバランスさせる
実験結果
リサーチクエスチョン
- RQ1単一モデルがテキスト埋め込みで最先端の性能を達成しつつ、生成能力も強力に保たれるか?
- RQ2共通の最適化は性能に必須か、それとも埋め込み専用および生成専用モデルで十分か?
- RQ3統一型 GRIT モデルを用いた検索 augmented 生成における実務的な利得は?
- RQ4データソース、注意機構、損失構成が双タスクの性能にどう影響するか?
- RQ5統一モデルの訓練効率と推論のトレードオフは何か?
主な発見
- GritLM 7B は Massive Text Embedding Benchmark (MTEB) におけるオープンモデルの新しい最先端を設定した。
- GritLM 7B はいくつかの生成タスクでより大きなオープン生成モデルを上回る。
- GritLM 8x7B は推論時に13Bを使用しつつ、タスク平均で最良のオープン生成モデルとなる。
- 統一型GRIT訓練は埋め込み専用および生成専用のバリアントと同等以上の性能を達成し、結合損失が双タスク性能にとって重要だというアブレーション結果を示す。
- GRIT を用いた RAG は長文の推論を60%超高速化し、検索と生成の両方を1つのモデルで実行できることでキャッシュを活用できる。
- より大きな埋め込みバッチサイズ(例:2048)を使用すると、生成を害することなく埋め込み性能が向上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。