[論文レビュー] WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia
WikiChat は、取得と LLM 生成および各主張のファクトチェックを組み合わせた few-shot、Wikipedia を基盤とするチャットボット・パイプラインで、遅延、コスト、プライバシーの向上のために小型モデルへ蒸留したもの。
This paper presents the first few-shot LLM-based chatbot that almost never hallucinates and has high conversationality and low latency. WikiChat is grounded on the English Wikipedia, the largest curated free-text corpus. WikiChat generates a response from an LLM, retains only the grounded facts, and combines them with additional information it retrieves from the corpus to form factual and engaging responses. We distill WikiChat based on GPT-4 into a 7B-parameter LLaMA model with minimal loss of quality, to significantly improve its latency, cost and privacy, and facilitate research and deployment. Using a novel hybrid human-and-LLM evaluation methodology, we show that our best system achieves 97.3% factual accuracy in simulated conversations. It significantly outperforms all retrieval-based and LLM-based baselines, and by 3.9%, 38.6% and 51.0% on head, tail and recent knowledge compared to GPT-4. Compared to previous state-of-the-art retrieval-based chatbots, WikiChat is also significantly more informative and engaging, just like an LLM. WikiChat achieves 97.9% factual accuracy in conversations with human users about recent topics, 55.0% better than GPT-4, while receiving significantly higher user ratings and more favorable comments.
研究の動機と目的
- オープンドメインのチャットボットにおけるファクト性を、信頼できるコーパス(Wikipedia)に基づかせて向上させる。
- 7 段階の retrieval-and-generation パイプラインを通じて、高い会話性と低遅延を実現する。
- 品質を損なうことなく、複数段階のシステムを小型モデルへ蒸留することを示す。
- シミュレーションデータと実ユーザデータを人間-LLM の評価と組み合わせた評価方法論を提供する。
提案手法
- Stage 1: ユーザー発話からクエリを生成し、時系列再ランキングを用いて Wikipedia の節を取得する。
- Stage 2: 関連箇所を抽出し、根拠づけのために箇条書きに要約する。
- Stage 3: 会話履歴と箇条書きから応答を生成するよう LLM を促す。
- Stage 4: LLM の応答を主張に分解し、それぞれの主張の証拠を取得する。
- Stage 5: チェーン・オブ・ソート(思考連鎖)プロンプトを用いて各主張を『支持』・『反証』・『不定』として分類し、根拠のない主張は破棄する。
- Stage 6: 根拠のある箇条書きと履歴から最終応答を下書きする; Stage 7: 関連性、自然さ、重複回避、時系列の正確さに関するフィードバックを用いて草案を改良する。
実験結果
リサーチクエスチョン
- RQ1信頼できるコーパスに基づく few-shot の LLM は、誤情報の発生率を低く抑えつつ、事実性が高く魅力的な応答を生成できるか。
- RQ27 段階の retrieval-grounded パイプラインは、retrieval のみや純粋な LLM ベースと比較して、ファクト性、会話性、遅延の点でどう比較されるか。
- RQ3WikiChat を小型モデルへ蒸留しても、遅延とコストを削減しつつ、ファクト性と会話性を保てるか。
- RQ4知識に基づくチャットボットのファクト性と会話性を最も適切に評価する評価方法論は何か。
主な発見
- WikiChat GPT-4 は、シミュレートされた会話で 97.3%、実ユーザーの会話で 97.9% のファクト性を達成。
- WikiChat の派生系は、最先端のretrievalベースモデル Atlas におけるファクト性で上回り、LLMs と同等の会話性を確保。
- WikiChat G4 を 7B LLaMA モデルへ蒸留すると、ファクト性 91.1%、教師モデルに比べエンドツーエンドの待機時間が 3.2 倍低下。
- GPT-4 と比較して、WikiChat のファクト性の優位性は、末尾知識や最近の知識で最も強い。
- 最終応答の主張の約3分の1がファクトチェック段階で却下されることから、主張レベルでの検証の重要性が浮き彫りになる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。