[논문 리뷰] How Language Model Hallucinations Can Snowball
이 논문은 언어 모델의 환각이 눈덩이처럼 커질 수 있음을 보여준다: 초기의 잘못된 답변은 종종 잘못된 정당화로 이어지지만, 모델은 별도의 질의를 통해 이러한 눈덩이화된 오류를 인식할 수 있다. 세 가지 QA 데이터셋을 제공하고 ChatGPT와 GPT-4의 탐지/완화 전략을 분석한다.
A major risk of using language models in practical applications is their tendency to hallucinate incorrect statements. Hallucinations are often attributed to knowledge gaps in LMs, but we hypothesize that in some cases, when justifying previously generated hallucinations, LMs output false claims that they can separately recognize as incorrect. We construct three question-answering datasets where ChatGPT and GPT-4 often state an incorrect answer and offer an explanation with at least one incorrect claim. Crucially, we find that ChatGPT and GPT-4 can identify 67% and 87% of their own mistakes, respectively. We refer to this phenomenon as hallucination snowballing: an LM over-commits to early mistakes, leading to more mistakes that it otherwise would not make.
연구 동기 및 목표
- LMs에서 환각 눈덩화를 실패 모드로서 동기부여하고 특성화한다.
- 세 가지 QA 데이터셋을 사용해 눈덩이화의 보편성을 경험적으로 시연한다.
- 최신 모델이 고립된 상태에서 자신의 눈덩이된 오류를 얼마나 자주 인식하는지 정량한다.
제안 방법
- 올바르지 않은 답변이 설명에서 확인 가능한 잘못된 주장으로 이어지는 세 가지 예/예/네트워크 기반의 yes/no QA 데이터셋(primality, senator alma mater, graph connectivity)을 자동으로 구성한다.
- zero-shot 프롬프트에서 greedy decoding으로 ChatGPT (gpt-3.5-turbo)와 GPT-4를 평가한다.
- 모델의 잘못된 주장들을 추출하고 별도 세션에서 이러한 주장을 모델이 인식하는지 검증한다.
- 눈덩이화를 줄이기 위한 프롬핑(예: “Let's think step-by-step”) 및 디코딩 전략(온도, top-k, 핵심 샘플링, 빔 검색)의 효과를 평가한다.
- 재현성과 추가 연구를 가능하게 하기 위해 데이터셋과 코드를 공개한다.
실험 결과
연구 질문
- RQ1LMs가 자주 잘못된 답변과 함께 잘못되었지만 검증 가능한 정당화를 생성하는가?
- RQ2고립된 상태에서 Incorrect claims를 확인하도록 요청했을 때 LMs가 자신의 눈덩이 환각을 식별하고 검증할 수 있는가?
- RQ3프롬핑 및 디코딩 전략이 눈덩이 환각을 줄이는 데 얼마나 효과적인가?
- RQ4추론 작업 중에 현재 모델이 눈덩이를 피하는 데 어떤 한계가 있는가?
주요 결과
| Task | Average | Model | Graph Connectivity | Primality Testing | Senator Search |
|---|---|---|---|---|---|
| ChatGPT | 410/500 (82.0%) | ChatGPT | 339/500 (67.8%) | 153/500 (30.6%) | 60.13% |
| GPT-4 | 442/500 (88.4%) | GPT-4 | 374/500 (74.8%) | 435/500 (87.0%) | 83.40% |
- ChatGPT와 GPT-4는 세 데이터셋에서 전반적으로 낮은 QA 정확도(평균 정확도: ChatGPT 약 39.87%, GPT-4 약 16.6%)를 보인다.
- 두 모델 모두 처음 한 토큰(Yes/No)에서 95% 이상의 비율로 답을 확정하며, 이 초기 확정은 자주 잘못된 경우가 많다.
- ChatGPT는 눈덩이 악정확 주장 중 67.37%를 인식하고; GPT-4는 고립된 검증에서 그러한 주장 중 87.03%를 인식한다.
- 단계별 추론을 통한 프롬핑은 일부 데이터셋(예: Senator Search)에서 작업 정확도를 높이지만 추론 오류를 도입하고 여전히 눈덩이를 높은 수준으로 남겨둘 수 있다.
- 더 높은 온도 디코딩 및 샘플링 방식은 눈덩이를 제거하지 않으며, OpenAI API에서 사용할 수 없는 빔 검색이 이를 완화할 가능성이 있고, 역추적 프롬핑은 일부 경우에 도움이 될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.