[논문 리뷰] Large Language Models Are Not Robust Multiple Choice Selectors
논문은 LLM이 MCQ에서 토큰 편향으로 인해 선택 편향(selection bias)을 보이며, 옵션 ID에 대한 편향을 추정해 예측을 디바이즈하는 PriDe라는 제로-레이블 추론-시점 디바이징 방법을 제안한다.
Multiple choice questions (MCQs) serve as a common yet important task format in the evaluation of large language models (LLMs). This work shows that modern LLMs are vulnerable to option position changes in MCQs due to their inherent "selection bias", namely, they prefer to select specific option IDs as answers (like "Option A"). Through extensive empirical analyses with 20 LLMs on three benchmarks, we pinpoint that this behavioral bias primarily stems from LLMs' token bias, where the model a priori assigns more probabilistic mass to specific option ID tokens (e.g., A/B/C/D) when predicting answers from the option IDs. To mitigate selection bias, we propose a label-free, inference-time debiasing method, called PriDe, which separates the model's prior bias for option IDs from the overall prediction distribution. PriDe first estimates the prior by permutating option contents on a small number of test samples, and then applies the estimated prior to debias the remaining samples. We demonstrate that it achieves interpretable and transferable debiasing with high computational efficiency. We hope this work can draw broader research attention to the bias and robustness of modern LLMs.
연구 동기 및 목표
- LLM이 MCQ 옵션 ID에 대한 선택 편향을 어떻게 보이는지와 이것이 벤치마크 전반의 강건성에 어떤 영향을 미치는지 식별한다.
- MCQ 정답 선택에서 토큰 편향 대 위치 편향의 역할을 정량화한다.
- 관측된 예측을 옵션 ID에 대한 prior와 디바이즈된 콘텐츠 분포로 분해하여 라벨-프리, 추론-시점 디바이징 방법(PriDe)을 개발한다.
- PriDe의 효과성, 효율성, 해석가능성 및 도메인 간 일반화성을 입증한다.
- 학습된 priors의 도메인 간 일반화 가능성에 대한 통찰을 제공한다.
제안 방법
- 다양한 벤치마크에서 옵션 ID에 대한 recall balance(RStd)을 사용해 선택 편향을 정의하고 측정한다.
- ID를 섞거나 프롬프트에서 ID를 제거하여 토큰 편향과 위치 편향을 분리하는 아블레이션을 수행한다.
- PriDe를 개발: 관찰된 예측을 prior over IDs와 디바이즈된 콘텐츠 분포로 분해하여 편향되지 않은 분포를 예측한다.
- 작은 추정 세트에서 순열 기반 디바이징으로 샘플-특정 priors를 추정하고 남은 샘플에 대해 전역 priors를 도출한다.
- 다중 순열의 평균 로그-예측에 대해 softmax를 사용하여 priors를 형식화한다(식 7).
- PriDe를 순열 기반 베이스라인(Cyclic 및 Full Perm)과 비교하고 도메인 간 일반화 가능성을 분석한다.
실험 결과
연구 질문
- RQ1MCQ를 해결할 때 LLM이 선택 편향을 유발하는 원인은 무엇이며 토큰 편향과 위치 편향은 어떤 기여를 하는가?
- RQ2라벨-프리, 추론-시점 방식으로 이 편향을 완화하되 MCQ 성능에 해를 끼치지 않는가?
- RQ3PriDe가 순열 기반 베이스라인에 비해 견고성 및 효율성을 얼마나 향상시키는가?
- RQ4하나의 도메인에서 추정된 priors가 다른 도메인에 일반화되는가?
주요 결과
- 선택 편향은 20개의 LLM에서 널리 나타나며 모델 계열과 크기에 따라 다르게 나타난다.
- 토큰 편향이 선택 편향의 주요 내재적 원인으로 확인되며 위치 편향의 역할은 상대적으로 작다.
- 간단한 프롬프트 전략은 선택 편향을 효과적으로 완화하지 못한다.
- 라벨-프리 디바이징 방법인 PriDe는 Cyclic 및 Full Perm 베이스라인보다 성능이 우수하며 특히 계산 비용이 낮은 경우에 강점이 있다.
- PriDe의 prior 추정은 해석 가능성과 도메인 간 일반화 가능성의 가능성을 보여준다.
- priors의 추정은 샘플 크기가 달라져도 안정적으로 유지된다(2%–20%).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.