[論文レビュー] HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution
tldr: HAGRID は MIRACL English を基盤に、GPT-3.5 を用いて回答を生成し、人間の注釈者が情報性と出典付け可能性を判断する、出典付きのエンドツーエンドの生成的情報探索のオープンデータセットを導入する。
The rise of large language models (LLMs) had a transformative impact on search, ushering in a new era of search engines that are capable of generating search results in natural language text, imbued with citations for supporting sources. Building generative information-seeking models demands openly accessible datasets, which currently remain lacking. In this paper, we introduce a new dataset, HAGRID (Human-in-the-loop Attributable Generative Retrieval for Information-seeking Dataset) for building end-to-end generative information-seeking models that are capable of retrieving candidate quotes and generating attributed explanations. Unlike recent efforts that focus on human evaluation of black-box proprietary search engines, we built our dataset atop the English subset of MIRACL, a publicly available information retrieval dataset. HAGRID is constructed based on human and LLM collaboration. We first automatically collect attributed explanations that follow an in-context citation style using an LLM, i.e. GPT-3.5. Next, we ask human annotators to evaluate the LLM explanations based on two criteria: informativeness and attributability. HAGRID serves as a catalyst for the development of information-seeking models with better attribution capabilities.
研究の動機と目的
- 帰属可能な生成型検索モデルを訓練するために、公開されているデータセットの必要性を動機づける。
- LLM 生成の説明と情報性および出典付けに関する人間の判断を組み合わせたデータセットを作成する。
- MIRACL を活用して、クエリ、引用、関連箇所を基盤として、根拠のある回答を生成・評価する。
- 明示的な出典引用を伴うエンドツーエンドの検索強化生成に関するオープンな研究を促進する。
提案手法
- MIRACL English のクエリとそれらのポジティブパッセージを文脈として取り、出典付けに配慮した生成パイプラインを構築する。
- GPT-3.5 を用いて、サポート引用を参照するインコンテキスト引用付きの回答を生成する。
- 人間の注釈者に、生成された各回答の情報性と帰属性を評価させる。
- Apache 2.0 の下でオープンアクセスの訓練用と開発用の2つの分割サブセットを提供する。
- LLM 出力を後処理し、IEEE 風の引用形式に適合させる。
実験結果
リサーチクエスチョン
- RQ1与えられた一連のパッセージから支持引用を引用して根拠のある回答を自動的に生成するにはどうすればよいか?
- RQ2人間が評価した場合、LLM 生成の説明はどの程度情報性があり、帰属性があるのか?
- RQ3オープンで人間が介在するデータセットは、帰属性を伴うエンドツーエンドの検索強化生成モデルの開発を促進できるか?
主な発見
- 約 1,922 の訓練質問と 716 の開発質問が回答生成に使用された。
- GPT-3.5 は訓練用 3,214 回答と開発用 1,318 回答を生成した(質問あたり約 1.7–1.8)。
- 引用は訓練用 6,577 回答と開発用 3,305 回答に現れた(回答あたり約 2.0–2.5 の引用)。
- 情報性のある回答は訓練で 84%、開発で 90% に対して Yes とラベル付けされた。帰属性のある回答は訓練で 73%、開発で 71% に対して Yes。
- GPT-3.5 が生成した回答の約 40% が情報性がなく、20%を超えるものが帰属付けを欠いており、改善の余地を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。