QUICK REVIEW

[論文レビュー] RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots

Philip Feldman. James R. Foulds, Foulds, James R.|arXiv (Cornell University)|Mar 2, 2024

AI in Service Interactions被引用数 5

ひとこと要約

本論文は、研究者の履歴書（CV）からの文脈プロンプトを用いて、LLMの幻覚を減らすための Retrieval-Augmented Generation（RAG）を経験的に評価する。文脈は精度を著しく向上させるが、依然として誤りを生む可能性があり、RAGシステムにおける微妙な誤りタイプを浮き彫りにしている。

ABSTRACT

Large language models (LLMs) like ChatGPT demonstrate the remarkable progress of artificial intelligence. However, their tendency to hallucinate -- generate plausible but false information -- poses a significant challenge. This issue is critical, as seen in recent court cases where ChatGPT's use led to citations of non-existent legal rulings. This paper explores how Retrieval-Augmented Generation (RAG) can counter hallucinations by integrating external knowledge with prompts. We empirically evaluate RAG against standard LLMs using prompts designed to induce hallucinations. Our results show that RAG increases accuracy in some cases, but can still be misled when prompts directly contradict the model's pre-trained understanding. These findings highlight the complex nature of hallucinations and the need for more robust solutions to ensure LLM reliability in real-world applications. We offer practical recommendations for RAG deployment and discuss implications for the development of more trustworthy LLMs.

研究の動機と目的

LLMにおける幻覚を抑制するためにRAGが用いられる動機づけを示す。
外部情報を取得する際の文脈プロンプトが精度に与える影響を調査する。
RAG設定において文脁があっても残る誤りの種類を評価する。

提案手法

学者がCVを提供し、CV文脈の有無でプロンプトを補強する人間-in-the-loop実験を実施する。
Named academicsの出版物についてのプロンプトに答えるために、OpenAI gpt-3.5-turbo-16k-0613を使用する。
参加者に各回答を幻覚、部分、正確、または役に立たないのいずれかに分類させる。
文脈ありと文脈なしプロンプト間で精度と誤りの種類を比較する。

実験結果

リサーチクエスチョン

RQ1CVベースの情報タスクにおいて、取得した文脈をプロンプトに追加することはLLMの回答の精度を向上させるか？
RQ2RAGベースのプロンプトで文脈を使用するとどのような誤りのカテゴリーが残るか？
RQ3文脈提示が実務で幻覚と役に立たない出力の割合にどのように影響するか。

主な発見

文脈は精度を劇的に向上させる：文脈ありで約94%、文脈なしで約7.31%の正確性。
文脈付きアイテム1,125件全体で、93.95%が正確、2.04%が幻覚、2.31%が役に立たない、1.68%が部分。
非文脈アイテム793件では、7.31%が正確、55.35%が幻覚、28.87%が役に立たない、8.44%が部分。
全体として、文脈プロンプトは幻覚を減らし、取得したテキストのナビゲーションを約18倍改善した。
観察された5つの誤りカテゴリ：Noisy Context、InstructionとContextの不一致、Context-based Synthesis、Unusual Formatting、Incomplete Context。
6.04%のアイテムで、文脈があっても回答が誤っており、挙げられた誤りカテゴリによって引き起こされる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。