[論文レビュー] InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval
InPars-v2 は open-source LLMs を用いて合成的なクエリ-文書ペアを生成し、monoT5 リランカーでフィルタリングし、18 個のデータセット専用リランカーを訓練することで、新しい BEIR の最先端結果を達成すると同時に、コード・データ・モデルを公開する。
Recently, InPars introduced a method to efficiently use large language models (LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced to generate relevant queries for documents. These synthetic query-document pairs can then be used to train a retriever. However, InPars and, more recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to generate such datasets. In this work we introduce InPars-v2, a dataset generator that uses open-source LLMs and existing powerful rerankers to select synthetic query-document pairs for training. A simple BM25 retrieval pipeline followed by a monoT5 reranker finetuned on InPars-v2 data achieves new state-of-the-art results on the BEIR benchmark. To allow researchers to further improve our method, we open source the code, synthetic data, and finetuned models: https://github.com/zetaalphavector/inPars/tree/master/tpu
研究の動機と目的
- IR のデータ拡張を、ラベル付きのドメイン内データが不足している場合に動機づける。
- 合成クエリ生成のために Proprietary な LLM を open-source の代替へ置換する。
- 高品質な合成クエリ-文書ペアを選択するための、より良いフィルタリング手順を導入する。
- 最先端の BEIR 結果を示し、再現性のためのオープンソースの成果物を提供する。
提案手法
- open-source GPT-J-6B を用いて各 BEIR データセットごとに 100k の合成クエリを生成し、3-shot MS MARCO プロンプトを使用する。
- MS MARCO でファインチューニングした monoT5-3B でスコア付けして 10k の高品質ペアへフィルタリングする。
- 各合成クエリについて top BM25 結果から非関連ドキュメントをサンプリングしてネガティブを作成する。
- MS MARCO 上でリランカーとして monoT5-3B をファインチューニングし、その後合成データ(データセットごと)でさらにファインチューニングする。
- 別個のリランカーを(BEIR データセットごとに1つずつ)訓練し、BM25 検索 + リランキングパイプラインで評価する。
実験結果
リサーチクエスチョン
- RQ1オープンソース LLMs は、専有的なアプローチに匹敵する合成IRデータを生成できるか?
- RQ2学習済みリランカーベースのフィルタリングは、IR トレーニング用の合成クエリ-文書ペアの質を改善するか?
- RQ3合成データ上でデータセット特有のリランカーを訓練した場合、BEIR レベルの成果はどの程度達成できるか?
主な発見
| データセット | BM25 | monoT5-3B | +InPars-v1 | +InPars-v2 | Avg | Avg PrGator |
|---|---|---|---|---|---|---|
| MARCO | 0.594 | 0.801 | 0.846 | 0.846 | 0.762 | 0.823 |
| TREC-Covid | 0.594 | 0.801 | 0.846 | 0.846 | 0.762 | 0.823 |
| Robust | 0.407 | 0.615 | 0.610 | 0.632 | - | - |
| FiQA | 0.236 | 0.509 | 0.492 | 0.509 | 0.494 | 0.493 |
| DBPedia | 0.318 | 0.472 | 0.494 | 0.498 | 0.434 | 0.459 |
| SciDocs | 0.149 | 0.197 | 0.206 | 0.208 | 0.201 | 0.191 |
| SciFact | 0.678 | 0.774 | 0.774 | 0.774 | 0.731 | 0.760 |
| NFCorpus | 0.321 | 0.383 | 0.385 | 0.385 | 0.370 | 0.399 |
| BioASQ | 0.522 | 0.566 | 0.607 | 0.595 | - | 0.579 |
| Natural Questions | 0.305 | 0.625 | 0.625 | 0.638 | - | 0.647 |
| HotpotQA | 0.633 | 0.760 | 0.790 | 0.791 | 0.736 | 0.753 |
| TREC-News | 0.395 | 0.477 | 0.458 | 0.490 | - | - |
| Quora | 0.788 | 0.835 | 0.874 | 0.845 | - | 0.819 |
| FEVER | 0.651 | 0.848 | 0.852 | 0.872 | 0.866 | 0.848 |
| Climate-FEVER | 0.165 | 0.288 | 0.287 | 0.323 | 0.241 | 0.275 |
| Signal | 0.328 | 0.302 | 0.319 | 0.308 | - | 0.319 |
| ArguAna | 0.397 | 0.379 | 0.371 | 0.369 | 0.630 | 0.406 |
| Touche | 0.442 | 0.309 | 0.260 | 0.291 | 0.381 | 0.486 |
| CQADupstack | 0.302 | 0.449 | 0.449 | 0.448 | - | - |
- InPars-v2 は InPars-v1 を上回り、平均的に BEIR の最先端結果を達成する。
- BEIR ベンチマークでは、Promptagator や RankT5 と比較して多くのデータセットで競争力のある結果を得る。
- MARCO ベースの合成データを monoT5-3B リランカーでフィルタリングすると、BEIR の性能が高まる。
- 合成データ・コード・ファインチューニング済みモデルをオープンソース化することで、再現性と今後の研究を促進する。
- averaged BEIR のパフォーマンス(Avg) は、複数データセットに渡って Avg PrGator ベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。