[논문 리뷰] The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning
이 논문은 QA와 NLI 전반의 few-shot 텍스트 추론에 대해 설명이 포함된 프롬프트가 LLM의 성능 향상에 미치는 영향을 분석하고, 대부분의 모델에서 제한된 이득을 보이며 몇 가지 주목할 만한 예외가 있음을 발견하며, 설명이 사실적이지 않더라도 사후 보정(calibration)에 유용할 수 있음을 보여준다.
Does prompting a large language model (LLM) like GPT-3 with explanations improve in-context learning? We study this question on two NLP tasks that involve reasoning over text, namely question answering and natural language inference. We test the performance of four LLMs on three textual reasoning datasets using prompts that include explanations in multiple different styles. For these tasks, we find that including explanations in the prompts for OPT, GPT-3 (davinci), and InstructGPT (text-davinci-001) only yields small to moderate accuracy improvements over standard few-show learning. However, text-davinci-002 is able to benefit more substantially. We further show that explanations generated by the LLMs may not entail the models' predictions nor be factually grounded in the input, even on simple tasks with extractive explanations. However, these flawed explanations can still be useful as a way to verify LLMs' predictions post-hoc. Through analysis in our three settings, we show that explanations judged by humans to be good--logically consistent with the input and the prediction--more likely cooccur with accurate predictions. Following these observations, we train calibrators using automatically extracted scores that assess the reliability of explanations, allowing us to improve performance post-hoc across all of our datasets.
연구 동기 및 목표
- 맥락 내 프롬프트의 설명이 텍스트 추론 태스크(QA 및 NLI)에서 few-shot 학습을 개선하는지 평가한다.
- 모델이 생성한 설명의 사실성 및 일관성을 특징지운다.
- 사후 보정을 통해 설명을 활용해 in-context 학습 성능을 향상시킬 수 있는 보정 기법을 탐구한다.
- 설명으로 보정이 실제로 언제 어떻게 도움이 되는지에 대한 실용적 가이드를 제공한다.
제안 방법
- 네 가지 LLM(OPT-175B, GPT-3 davinci, InstructGPT text-davinci-001, text-davinci-002)을 세 데이터셋(Synth 합성 다중 홉 QA, AdvHotpot, E-SNLI)에서 평가한다.
- Explain-then-Predict(E-P) 및 Predict-then-Explain(P-E) 프롬프트 스타일을 사용하고 그리디 디코딩을 적용한다.
- 설명 없이 standard Few-Shot 프롬프트와 비교한다.
- 설명의 사실성(입력에 기반한 근거 여부)과 일관성(예측을 수반하는지)을 분석한다.
- 자동 신뢰도 점수를 사용해 경량 보정기를 학습시켜 사후 예측을 개선한다.
- 다수의 shot 그룹에서 평균 및 표준편차를 보고하고, 가능하면 다중 시드를 실행한다.
실험 결과
연구 질문
- RQ1프롬프트의 설명이 서로 다른 LLM에서 텍스트 추론 태스크의 in-context 학습 정확도를 유의하게 향상시키는가?
- RQ2LLM이 생성한 설명은 일반적으로 사실에 부합하는가 아니면 예측 라벨과의 일관성만 있는가?
- RQ3설명의 신뢰도를 자동으로 평가해 예측을 보정하고 성능을 개선할 수 있는가?
- RQ4few-shot 및 데이터 부족 규범 하에서 설명 기반 보정기가 QA와 NLI 태스크에서 얼마나 잘 작동하는가?
주요 결과
| 모델 | 프롬프트 | Synth (평균±표준편차) | AdvHotpot (평균±표준편차) | E-SNLI (평균±표준편차) |
|---|---|---|---|---|
| OPT (175B) | 소수 예제 | 40.5±2.8 | 49.7±2.6 | 44.0±3.8 |
| OPT (175B) | E-P | 29.6±0.5 | 52.6±6.5 | 39.3±7.8 |
| OPT (175B) | P-E | 40.2±2.6 | 43.3±4.5 | 43.4±1.6 |
| GPT-3 | 소수 예제 | 49.5±0.6 | 49.1±6.2 | 43.3±5.7 |
| GPT-3 | E-P | 47.1±2.8 | 54.1±4.1 | 40.4±4.5 |
| GPT-3 | P-E | 51.3±1.8 | 48.7±4.6 | 48.7±2.4 |
| InstructGPT | 소수 예제 | 54.8±3.1 | 53.2±2.3 | 56.8±2.0 |
| InstructGPT | E-P | 58.5±2.1 | 58.2±4.1 | 41.8±2.5 |
| InstructGPT | P-E | 53.6±1.0 | 51.5±2.4 | 59.4±1.0 |
| text-davinci-002 | 소수 예제 | 72.0±1.4 | 77.7±3.2 | 69.1±2.0 |
| text-davinci-002 | E-P | 86.9±3.8 | 82.4±5.1 | 75.6±7.6 |
| text-davinci-002 | P-E | 81.1±2.8 | 77.2±4.8 | 69.4±5.0 |
- 설명은 OPT, GPT-3, InstructGPT에 대해 소형에서 중간 규모의 이득을 주며, text-davinci-002가 설명을 통해 가장 큰 개선을 보인다.
- LLM의 설명은 예측과 일관되는 경향이 있지만 입력 맥락에 대해 사실적이지 않은 경우가 많다.
- 설명의 사실성은 예측 정확도와 상관관계가 있으며, 사실적이지 않은 설명은 종종 잘못된 예측의 동반자이다.
- 자동으로 추출된 사실성 점수를 이용한 보정은 모든 데이터셋에서 in-context 학습을 개선하며, 설명 기반 보정기가 확률 기반 기준선보다 우수하다.
- AdvHotpot에서 설명 기반 보정(E-P+ExplCal)은 선택적 정답 시나리오에서 최소한의 추가 데이터로도 기준선보다 높은 AUC를 달성한다.
- Synth에서는 간단한 사후 검사의 설명 사실성 확인으로 정확도가 52.4%에서 74.8%로 크게 상승할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.