[論文レビュー] Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models
論文は Attributed QA を定義し、人間 AIS と自動 AutoAIS 指標を用いた再現性のある評価フレームワークを確立し、複数のアーキテクチャをベンチマークし、 attribution が従来の QA 指標とどのように相関するかを分析する。
Large language models (LLMs) have shown impressive results while requiring little or no direct supervision. Further, there is mounting evidence that LLMs may have potential in information-seeking scenarios. We believe the ability of an LLM to attribute the text that it generates is likely to be crucial in this setting. We formulate and study Attributed QA as a key first step in the development of attributed LLMs. We propose a reproducible evaluation framework for the task and benchmark a broad set of architectures. We take human annotations as a gold standard and show that a correlated automatic metric is suitable for development. Our experimental work gives concrete answers to two key questions (How to measure attribution?, and How well do current state-of-the-art methods perform on attribution?), and give some hints as to how to address a third (How to build LLMs with attribution?).
研究の動機と目的
- Attributed QA と attributed LLMs の動機づけを定義する。
- attribution のための再現性のある人間・自動評価フレームワークを提案する。
- varying supervision の下で広範なアーキテクチャ(RTR、ポストホック、LLM-as-retriever)をベンチマークする。
- AIS、EM、AutoAIS の相関を分析して評価信号を理解する。
- LLM における attribution メカニズム構築の洞察と推奨を提供する。
提案手法
- Attributed QA タスクを (answer, attribution) のペアとして定義し、attribution が固定コーパス単位を指す。
- majority voting と bootstrap エラー推定を用いて金標準として人間 AIS アノテーションを収集する。
- 事前学習済みの NLI 分類器を用いて (x, a) の包含性を attribution c から判断する自動評価として AutoAIS を採用する。
- Retrieve-then-read (RTR)、ポストホックリトリーバル、LLM-as-retriever のいくつかのアーキテクチャを、 varying supervision(NQ-full、NQ-64、NQ-full with exemplars)で実装・評価する。
- attribution に焦点を当てた指標(AIS)を EM および AutoAIS と比較して相関を研究する。
- retrieval 戦略、 exemplar の使用、 reranking の ablational を提供する。
実験結果
リサーチクエスチョン
- RQ1QA 出力の attribution はどのように測定すべきか。
- RQ2現在の最先端手法はアーキテクチャ間で attribution をどれだけうまくこなしているか。
- RQ3attribution 評価(AIS)と従来の QA 指標(EM、AutoAIS)の関係はどうか。
- RQ4信頼できる attribution を持つ LLM を構築する設計選択は何か。
- RQ5ポストホック attribution はエンドツーエンド attribution に対して有効か。
主な発見
| Architecture | EM | AutoAIS | AIS (±SE) |
|---|---|---|---|
| Retrieve-then-read | 41.1 | 66.3 | 65.5±1.5 |
| + AutoAIS reranking | 53.3 | - | 71.4±1.4 |
| Post-hoc-retrieval | 49.5 | 53.9 | 55.6±1.5 |
| + AutoAIS reranking | 49.5 | - | 59.0±1.5 |
| Low resource | 39.5 | 41.9 | 48.6±1.6 |
| LLM-as-retriever | 50.1 | 41.5 | 46.0±1.6 |
- AutoAIS はシステムレベルで人間 AIS と高い相関を示し(r = 0.96)、開発指標としての利用を支持する。
- 最良の RTR システムは最高の AIS を達成し、より小さなモデルサイズにもかかわらずポストホック系より attribution で優れている。
- Dense retrieval(GTR)とより多くの exemplars(NQ-full)は EM を AIS よりも大幅に向上させ、 attribution は依然として課題であることを示す。
- エンドツーエンドの LLM-as-retriever アプローチは大規模パラメータの LLM で競争力のある AIS を示すが、 substantial な supervision やリソースを必要とする。
- EM と AIS は相関が限定的で(r = 0.45)、高い EM が必ずしもより良い attribution を保証しないことを示す。
- AutoAIS を用いた reranking は AIS を改善できるが、個々のインスタンスベースで人間判断には及ばない場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。