[論文レビュー] RealTime QA: What's the Answer Right Now?
RealTime QAは、期限が迫る質問向けの動的な週次QAベンチマークを提案し、オープンブックとクローズドブックのベースラインを評価し、取得の新鮮さを性能の鍵として強調する。
We introduce REALTIME QA, a dynamic question answering (QA) platform that announces questions and evaluates systems on a regular basis (weekly in this version). REALTIME QA inquires about the current world, and QA systems need to answer questions about novel events or information. It therefore challenges static, conventional assumptions in open-domain QA datasets and pursues instantaneous applications. We build strong baseline models upon large pretrained language models, including GPT-3 and T5. Our benchmark is an ongoing effort, and this paper presents real-time evaluation results over the past year. Our experimental results show that GPT-3 can often properly update its generation results, based on newly-retrieved documents, highlighting the importance of up-to-date information retrieval. Nonetheless, we find that GPT-3 tends to return outdated answers when retrieved documents do not provide sufficient information to find an answer. This suggests an important avenue for future research: can an open-domain QA system identify such unanswerable cases and communicate with the user or even the retrieval module to modify the retrieval results? We hope that REALTIME QA will spur progress in instantaneous applications of question answering and beyond.
研究の動機と目的
- 毎週刊最新のニュース記事に基づくリアルタイムQAベンチマークを導入し、時間敏感な情報ニーズを強調する。
- リアルタイム質問回答提出物の注釈と評価ワークフローを開発する。
- オープンブックとクローズドブックの構成でGPT-3、T5、BARTを用いた強力なベースラインを確立する。
- 最新の取得がQA性能に与える影響を分析し、取得ギャップに関連する失敗モードを特定する。
提案手法
- CNN、USA Today、THE WEEK から週次で約30問の選択問題を抽出する。
- Google Custom Search がトップ10文書を取得; 文書は解析され、参加者が利用する可能性のために保存される。
- オープンブックのベースラインは文書検索と回答生成を組み合わせる(RAGまたはGPT-3プロンプティング)。
- クローズドブックのベースラインはNatural QuestionsでファインチューニングされたT5と外部文書なしのGPT-3プロンプティングを使用。
- 評価は複数選択(OriginalとNOTA)および生成設定を、厳密一致とトークンF1でカバーする。
- 削除実験は日付情報の挿入と、それがプロンプトとベースラインに与える影響を検討する。
実験結果
リサーチクエスチョン
- RQ1最新の取得を活用して、斬新で時間に敏感な出来事に関する質問にリアルタイムQAシステムが回答できるか?
- RQ2取得元が現在か古いかで、オープンブックとクローズドブックのモデルはどう比較されるか?
- RQ3リアルタイムQAの主なエラー源は何か(取得と読解のどちらか)?
- RQ4プロンプトの時間的文脈(日付)はOpenGPT-3の性能を向上させるか、そしてそれはClosedGPT-3にどう影響するか?
- RQ5NOTA設定が時間敏感なQAにおけるモデル性能へ与える影響は何か?
主な発見
- Open-book GPT-3 with Google Custom Search retrieval substantially outperforms closed-book baselines and past-Wikipedia-retrieval baselines in both exact-match and F1 scores.
- Performance drops notably when NOTA is used, indicating reliance on provided choices and uncertainty handling remains a challenge.
- Retrieval errors account for a large portion of mistakes, highlighting the importance of fast, up-to-date information retrieval for real-time QA.
- Appending temporal date context to prompts generally improves open-book GPT-3 performance, but can hurt some closed-book prompts.
- Timed evaluation shows best performance within about 24 hours after question announcement before temporal gaps degrade results.
- The best overall configuration among the baselines is GCS retrieval with GPT-3 prompting, achieving the highest original EM/F1 and generation scores.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。