[論文レビュー] Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation
この論文は instruction-tuned LMs における自己矛盾的幻覚を分析し、矛盾を引き起こし、検出し、反復的に緩和する prompting ベースのパイプラインを提案し、外部リトリievalなしで強力な検出と矛盾の大幅な削減を達成する。
Large language models (large LMs) are susceptible to producing text that contains hallucinated content. An important instance of this problem is self-contradiction, where the LM generates two contradictory sentences within the same context. In this work, we present a comprehensive investigation into self-contradiction for various instruction-tuned LMs, covering evaluation, detection, and mitigation. Our primary evaluation task is open-domain text generation, but we also demonstrate the applicability of our approach to shorter question answering. Our analysis reveals the prevalence of self-contradictions, e.g., in 17.7% of all sentences produced by ChatGPT. We then propose a novel prompting-based framework designed to effectively detect and mitigate self-contradictions. Our detector achieves high accuracy, e.g., around 80% F1 score when prompting ChatGPT. The mitigation algorithm iteratively refines the generated text to remove contradictory information while preserving text fluency and informativeness. Importantly, our entire framework is applicable to black-box LMs and does not require retrieval of external knowledge. Rather, our method complements retrieval-based methods, as a large portion of self-contradictions (e.g., 35.2% for ChatGPT) cannot be verified using online text. Our approach is practically effective and has been released as a push-button tool to benefit the public at https://chatprotect.ai/.
研究の動機と目的
- 研究の動機を、LLM 出力における自己矛盾を重要で検証可能な非事実性の形式として強調します。
- トリガー→検出→緩和のパイプラインを定義します。外部知識取得を避け、 prompting と内部推論のみに依存します。
- 様々な現代的 LMs(GPT-4、ChatGPT、Llama2-70B-Chat、Vicuna-13B)とタスク(オープンディOM生成とQA)で実証評価します。
- 検出精度と緩和のテキストの流暢さと情報量への影響を定量化し、実務家向けの実用的なツールを公開します。
提案手法
- 同じ文脈について、論理的に矛盾する2文を自己矛盾と定義します。
- gLM を用いて文脈制約付きの候補文を生成し、矛盾を誘発します。
- プロンプトと自然言語推論に似た設定を用いて、アナライザーLM で矛盾を検出します。
- 一貫性と情報量を保ちつつ、分析用LMで衝突する文を反復的に改訂して緩和します。
- オープンドメイン生成とQA向けに適合させたプロンプトでパイプラインを具体化し、ブラックボックスLMに対しても使用可能にします。
- 再現性のためのオープンソースツール(chatprotect.ai)とデータセットを提供します。
実験結果
リサーチクエスチョン
- RQ1オープンドメイン生成における最先端の instruction-tuned LLM には自己矛盾がどれくらい普遍的に存在しますか?
- RQ2検出器は外部リトリーバルなしで、プロンプトと内部推論のみを用いて自己矛盾を識別できますか?
- RQ3反復的な緩和は、流暢さと情報量を保ちながら自己矛盾をどの程度減らせますか?
- RQ4 retrieval-augmented の設定や短い質問応答タスクにもフレームワークは一般化しますか?
- RQ5異なる gLMs および aLMs(オープンソース vs 専有)で性能はどう変わりますか?
主な発見
- 自己矛盾は一般的であり、例として ChatGPT はオープンドメイン生成で文の 17.7% に自己矛盾を含む。
- 自己矛盾の substantial な割合(ChatGPT では 35.2%) はオンラインのテキストで検証できず、リトリーバルベースの対処が制限される。
- アナライザーとして ChatGPT を使用すると、検出の F1 は gLMs 全体で約 80% に達し、緩和は自己矛盾の最大 89.5% を除去しつつ情報量を維持できる。
- 緩和はモデル間での困惑度を小幅に増加させつつ流暢さを維持(表3で例示される 0.44–1.78 の範囲の増加)。
- このアプローチは専有・オープンソースの両方の LMs で効果的であるが、オープンソースモデルは検出/除去の性能に more variability を示す。
- フレームワークは retrieval-augmented QA へも適用可能で、リトリーバルがあっても自己矛盾を顕著に検出する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。