Skip to main content
QUICK REVIEW

[論文レビュー] SGPT: GPT Sentence Embeddings for Semantic Search

Niklas Muennighoff|arXiv (Cornell University)|Feb 17, 2022
Topic Modeling被引用数 56
ひとこと要約

SGPTは、デコーダーのみのGPTモデルを活用してセマンティック検索の高品質な文埋め込みを生成できることを示しており、対比的大手モデルよりはるかに少ないパラメータで、Bi-Encodersにはバイアス調整(BitFit)を適用し、Cross-Encodersには対数確率を用いたプロンプトで実現することで、BEIRで最先端の結果を達成している。

ABSTRACT

Decoder transformers have continued increasing in scale reaching hundreds of billions of parameters. Due to their scale the same decoder sets state-of-the-art results on various language tasks via prompting or fine-tuning. Yet, these large foundation models remain unusable for the related fields of semantic search and sentence embeddings. This prevents possibly new state-of-the-art results and forces organizations to train and maintain separate models. To this end, we propose SGPT to use decoders for sentence embeddings and semantic search via prompting or fine-tuning. At 5.8 billion parameters SGPT improves on the previously best sentence embeddings by a margin of 7% and outperforms a concurrent method with 175 billion parameters as measured on the BEIR search benchmark. Code, models and result files are freely available at https://github.com/Muennighoff/sgpt.

研究の動機と目的

  • セマンティック検索と文埋め込みのために、デコーダーのみのトランスフォーマを用いることを動機づける。
  • 位置重み付きプーリングとBitFit(バイアスのみ微調整)を用いたSGPT-BE(Bi-Encoder)の開発。
  • 事前学習済みGPTモデルから対数確率を抽出してCross-Encoderを用いるSGPT-CEの開発。
  • BEIRおよびUSEBベンチマークにおいて、非対称および対称検索タスクを横断してSGPTの各変種を評価。
  • 実務者向けの有用なオープンソースコードとモデルの提供。

提案手法

  • デコーダーのみのトランスフォーマを用いてセマンティック検索の文埋め込みを生成。
  • SGPT-BEでは、隠れ状態に位置重み付き平均プーリングを適用。
  • 他の部分を凍結し、バイアスパラメータのみを微調整(BitFit)する。
  • 事前学習済みGPTモデルからプロンプトを介して対数確率を抽出し、教師なしクロスエンコーダースコアリングを行う。
  • BEIR、USEBの非対称・対称検索ベンチマークを評価し、エンコーダベースのベースラインおよびOpenAIエンドポイントと比較する。

実験結果

リサーチクエスチョン

  • RQ1選択的に微調整した場合、デコーダーのみのGPTモデルはセマンティック検索の競争力のある文埋め込みを生成できるか。
  • RQ2セマンティック検索において、GPTベースのBi-Encodersに最適な埋め込みを生み出すプーリング戦略はどれか。
  • RQ3SGPT-BEとSBERTのベースラインに対して、バイアスのみの微調整(BitFit)は全パラメータ微調整とどう比較されるか。
  • RQ4BEIRおよびUSEBデータセットにおいて、モデルサイズの増加に対してSGPT-CEおよびSGPT-BEの性能はどのようにスケールするか。

主な発見

  • SGPT-BE-5.8Bは、位置重み付き平均プーリングとBitFitを用い、サイズと設定で比較したときBEIRとUSEBにおける文埋め込みの最先端結果を達成。
  • SGPT-CE-6.1Bは、プロンプト付き対数確率を使用してBEIRで教師なしの最先端性能を達成するが、パラメータ数が多いほどレイテンシが増加。
  • 5.8Bパラメータのとき、SGPT-BEは従来の最良の文埋め込みより約7%の埋め込み品質向上を達成。
  • SGPT-CE-6.1BはTop-100再ランキングの最大パフォーマンスのおおよそ80%に達し、再ランキングのボトルネック下でのスケール効果を示す。
  • OpenAIエンドポイントと比較して、SGPTの変種は多くのBEIRおよびUSEBタスクで競争力があるか優れた結果を提供するとともに、オープンソースの代替手段とプロンプトおよび再ランキング戦略の完全な制御を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。