Skip to main content
QUICK REVIEW

[論文レビュー] InPars: Data Augmentation for Information Retrieval using Large Language Models

Luiz Bonifacio, Hugo Abonizio|arXiv (Cornell University)|Feb 10, 2022
Topic Modeling被引用数 20
ひとこと要約

InPars は大規模言語モデルを用いたFew-shotプロンプトで合成クエリ-ドキュメントペアを生成し、このデータでリランキングモデルをファインチューニングして、複数のIRデータセットにおいて強力なゼロショットおよびインドメインリトリーバル性能を達成します。

ABSTRACT

The information retrieval community has recently witnessed a revolution due to large pretrained transformer models. Another key ingredient for this revolution was the MS MARCO dataset, whose scale and diversity has enabled zero-shot transfer learning to various tasks. However, not all IR tasks and domains can benefit from one single dataset equally. Extensive research in various NLP tasks has shown that using domain-specific training data, as opposed to a general-purpose one, improves the performance of neural models. In this work, we harness the few-shot capabilities of large pretrained language models as synthetic data generators for IR tasks. We show that models finetuned solely on our unsupervised dataset outperform strong baselines such as BM25 as well as recently proposed self-supervised dense retrieval methods. Furthermore, retrievers finetuned on both supervised and our synthetic data achieve better zero-shot transfer than models finetuned only on supervised data. Code, models, and data are available at https://github.com/zetaalphavector/inpars .

研究の動機と目的

  • IRにおけるドメイン特有のデータ拡張の必要性を動機づける。
  • 大規模LMからラベル付きIRデータを生成する実用的なFew-shot promptingアプローチを提案する。
  • InPars生成データでファインチューニングしたリトリーバがベースラインを上回り、強力なゼロショット転移を実現することを示す。
  • インドメイン合成データが一般ドメインデータより追加の利得をもたらすことを示す。

提案手法

  • 言語モデルGを用いて文書dから質問qを生成し、(q,d)の陽性ペアを形成する。
  • N個の例 (q*,d*) ペアから固定のFew-shotプレフィックス t を構築し、生成を導く。
  • コレクションから文書をサンプリングし、LMの自己回帰確率 p_q で順位付けして、数千の (q,d) 陽性を生成する。
  • 生成された質問の平均対数確率に基づき、上位K=10,000ペアにフィルタリングする。
  • q に対してBM25の文書を1000件取得し、関連性のない d^- をサンプリングして負例を作成する。
  • 合成データで monoT5 ベースのリランキングモデル(220M および 3B)をファインチューニングし、標準の MS MARCO/BM25 のファーストステージ+ニューラルリランキングパイプラインで評価する。
  • プロンプトスタイル(Vanilla 対 GBQ)とインドメインソースを用いた実験を行い、IR指標への影響を調べる。
  • LMサイズが質問品質と下流のIR性能に与える影響を調査し、データフィルタリングと学習設定のアブレーションを実施する。

実験結果

リサーチクエスチョン

  • RQ1大規模LMを用いたFew-shotプロンプトは、リランキング精度を向上させる高品質なIR訓練データを生成できるか。
  • RQ2IRタスクにおいて、インドメインの合成データは一般ドメインの合成データより優れているか。
  • RQ3生成される質問の品質と下流のIR性能に対するLMサイズとプロンプトスタイルの影響はどのようか。
  • RQ4合成データは多様なデータセットにおいて、既存の教師なしまたはゼロショットリトリーバルのベースラインとどう比較されるか。
  • RQ5訓練セットを作成する際に、生成質問をその尤度でフィルタリングすることは有益か。

主な発見

  • InParsの合成データでファインチューニングした教師なしリトリーバは、BM25やいくつかの自己教師あり密な手法を上回る。
  • 監視付きデータとInPars合成データの両方でファインチューニングしたリトリーバは、監視付きデータのみでファインチューニングしたモデルよりゼロショット転移が優れている。
  • この設定ではクロスエンコーダ(monoT5 のよう)がビ-エンコーダを上回り、InParsは従来手法より多様性が高く、クエリ寄りの訓練データを生成する。
  • GBQプロンプトとインドメインソース文書は複数のデータセットで最強の結果を生み出す。Marcoソースを用いたVanillaプロンプトはMS MARCOとTREC-DL2020で最高の性能を発揮。
  • より大きなLMサイズは一般にIR性能を向上させるが、利得は頭打ちする。生成質問のtop-Kフィルタリングは利得を維持するために重要。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。