[논문 리뷰] Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation
이 논문은 지시가 튜닝된 언어모델에서의 자기 모순적 환상을 분석하고, 트리거링·탐지·반복적 완화를 위한 프롬프트 기반 파이프라인을 제안하여, 외부 검색 없이도 강한 탐지 성능과 상당한 자기 모순 감소를 달성한다.
Large language models (large LMs) are susceptible to producing text that contains hallucinated content. An important instance of this problem is self-contradiction, where the LM generates two contradictory sentences within the same context. In this work, we present a comprehensive investigation into self-contradiction for various instruction-tuned LMs, covering evaluation, detection, and mitigation. Our primary evaluation task is open-domain text generation, but we also demonstrate the applicability of our approach to shorter question answering. Our analysis reveals the prevalence of self-contradictions, e.g., in 17.7% of all sentences produced by ChatGPT. We then propose a novel prompting-based framework designed to effectively detect and mitigate self-contradictions. Our detector achieves high accuracy, e.g., around 80% F1 score when prompting ChatGPT. The mitigation algorithm iteratively refines the generated text to remove contradictory information while preserving text fluency and informativeness. Importantly, our entire framework is applicable to black-box LMs and does not require retrieval of external knowledge. Rather, our method complements retrieval-based methods, as a large portion of self-contradictions (e.g., 35.2% for ChatGPT) cannot be verified using online text. Our approach is practically effective and has been released as a push-button tool to benefit the public at https://chatprotect.ai/.
연구 동기 및 목표
- LLM 출력에서의 자기 모순을 핵심적이고 검증 가능한 비사실성 형태로 강조하여 연구의 필요성을 동기화한다.
- 외부 지식 검색을 피하고 프롬프트와 내부 추론에만 의존하는 트리거링-탐지-완화 파이프라인을 정의한다.
- 여러 현대 LLM(GPT-4, ChatGPT, Llama2-70B-Chat, Vicuna-13B)과 과제(open-domain generation 및 QA)에 대해 프레임워크를 경험적으로 평가한다.
- 탐지 정확도와 완화가 텍스트의 유창성 및 정보성에 미치는 영향을 정량화하고 실무자용 활용 가능한 도구를 배포한다.
제안 방법
- 동일 맥락에 관한 두 문장이 논리적으로 모순되는 것을 자기 모순으로 정의한다.
- 맥락 제약된 후보 문장을 gLM으로 생성하여 모순을 트리거한다.
- 프롬프트와 자연어 추론 유사한 설정을 통해 분석기 LM으로 모순을 탐지한다.
- 유창성과 정보성을 유지하면서 분석기 LM으로 충돌하는 문장을 반복적으로 수정하여 완화한다.
- 오픈 도메인 생성과 QA를 위해 맞춤화된 프롬프트로 파이프라인을 구현하여 블랙박스 LMs에서도 사용할 수 있게 한다.
- 재현성을 위한 오픈 소스 도구(chatprotect.ai)와 데이터셋을 제공한다.
실험 결과
연구 질문
- RQ1최신 지시-튜닝 LLM에서 오픈 도메인 생성 중 자기 모순이 얼마나 흔하게 나타나는가?
- RQ2외부 검색 없이 오직 프롬프트와 내부 추론만으로 탐지기가 자기 모순을 얼마나 정확하게 식별할 수 있는가?
- RQ3반복적 완화가 유창성과 정보성을 유지하면서 자기 모순을 어느 정도까지 줄일 수 있는가?
- RQ4그 프레임워크가 짧은 Q&A 과제와 검색 보강(setups)에도 일반화되는가?
- RQ5다양한 gLM과 aLM(오픈 소스 대 독점)에 걸쳐 성능은 어떻게 달라지는가?
주요 결과
- 자기 모순은 흔하며, 예를 들어 ChatGPT는 오픈 도메인 생성에서 문장의 17.7%가 자기 모순을 포함한다.
- 일부 비중(ChatGPT의 35.2%)의 자기 모순은 온라인 텍스트를 통해 확인할 수 없어 검색 기반 해결책의 효과를 제한한다.
- 탐지기로 ChatGPT를 사용하면 gLM 전반에서 F1이 약 80%에 이르고, 완화는 정보성을 유지하면서 자기 모순의 최대 89.5%를 제거할 수 있다.
- 완화는 모델 전반에서 유창성을 보존하고 혼란도 증가가 완만하게 나타난다(예: 표 3의 0.44–1.78).
- 해당 방식은 독점형과 오픈 소스 LMs 모두에서 효과적이지만, 오픈 소스 모델은 탐지/제거 성능에서 더 많은 변동성을 보인다.
- 이 프레임워크는 검색 보강 QA에도 적응하며, 검색이 있어도 상당한 자기 모순을 탐지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.