[논문 리뷰] Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty
이 논문은 공개적으로 배포된 LMs가 불확실성을 표현하는 경우가 드물고, 인지적 지표를 요청할 때 과신하는 경향이 있으며, 최종 사용자들이 LM의 확실성에 크게 의존하고 RLHF 편향이 과신에 기여한다는 것을 보여준다.
As natural language becomes the default interface for human-AI interaction, there is a need for LMs to appropriately communicate uncertainties in downstream applications. In this work, we investigate how LMs incorporate confidence in responses via natural language and how downstream users behave in response to LM-articulated uncertainties. We examine publicly deployed models and find that LMs are reluctant to express uncertainties when answering questions even when they produce incorrect responses. LMs can be explicitly prompted to express confidences, but tend to be overconfident, resulting in high error rates (an average of 47%) among confident responses. We test the risks of LM overconfidence by conducting human experiments and show that users rely heavily on LM generations, whether or not they are marked by certainty. Lastly, we investigate the preference-annotated datasets used in post training alignment and find that humans are biased against texts with uncertainty. Our work highlights new safety harms facing human-LM interactions and proposes design recommendations and mitigating strategies moving forward.
연구 동기 및 목표
- 공개적으로 배포된 LMs가 질문에 답할 때 인식적 표시를 어떻게 표현하는지 평가한다.
- 실제 작업에서 최종 사용자가 LM이 생성한 불확실성을 어떻게 해석하고 의존하는지 평가한다.
- LM의 과신의 기원을 확인하고 더 안전한 인간-LM 상호작용을 위한 완화 전략을 제안한다.
제안 방법
- GPT, LLaMA-2, Claude와 같은 LMs에 대해 개방형 프롬프트를 사용하여 MMLU 스타일의 질문 중 인식적 표시를 이끌어내도록 한다.
- 생성된 표시를 정성적으로 코딩하고 강화자와 약화자로 분류하며 정규식(regex)과 인간 라벨링을 사용한다.
- 사용자 의존도를 측정하기 위해 보정된, 과신적, 과소신뢰 설정의 인간 대상 실험을 수행하여 LM 유도 인식적 표식에 대한 사용자의 의존도를 측정한다.
- GPT 및 LLaMA-2 계열에서 기본(base), SFT, RLHF 모델을 비교하고 보상 모델과 주석자 편향을 평가하여 RLHF 프로세스를 분석한다.
실험 결과
연구 질문
- RQ1언어 모델이 질문에 답할 때 불확실성을 표현하는가, 그리고 프롬프트가 이것에 어떻게 영향을 미치는가?
- RQ2최종 사용자는 LM이 생성한 인식적 표식을 어떻게 해석하며 이것이 의존성과 성능에 어떤 영향을 미치는가?
- RQ3모델의 과신의 기원, 특히 RLHF 파이프라인에서의 원인은 무엇이며 이를 어떻게 완화할 수 있는가?
주요 결과
- LM은 기본 프롬프트에서 인식적 표식을 사용하기를 주저하며 주로 평범한 진술을 생성한다.
- 확실성을 표현하도록 명시적 프롬프트를 사용하면 과신하고 자주 잘못된 출력이 발생한다(평균 고신뢰도 오류율).
- 인간 사용자는 LM이 생성한 확실성 표식과 심지어 평범한 진술에 크게 의존하여 과신 의존의 위험이 있다.
- 보정된 인식적 표식은 사용자가 표식에 의존하는 법을 배우게 하지만, 과신하는 LM 출력은 장기적인 사용자 판단을 저해한다.
- RLHF 프로세스는 보상 모델링과 불확실성에 반하는 주석가 선호를 통해 확실성 쪽으로 편향을 도입하여 과신에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.