[논문 리뷰] Benchmarking LLMs via Uncertainty Quantification
이 논문은 conformal prediction을 사용한 불확실성 인식 벤치마킹 프레임워크를 제시하고, 정확도와 불확실성을 융합한 새로운 지표 UAcc를 도출한다.
The proliferation of open-source Large Language Models (LLMs) from various institutions has highlighted the urgent need for comprehensive evaluation methods. However, current evaluation platforms, such as the widely recognized HuggingFace open LLM leaderboard, neglect a crucial aspect -- uncertainty, which is vital for thoroughly assessing LLMs. To bridge this gap, we introduce a new benchmarking approach for LLMs that integrates uncertainty quantification. Our examination involves nine LLMs (LLM series) spanning five representative natural language processing tasks. Our findings reveal that: I) LLMs with higher accuracy may exhibit lower certainty; II) Larger-scale LLMs may display greater uncertainty compared to their smaller counterparts; and III) Instruction-finetuning tends to increase the uncertainty of LLMs. These results underscore the significance of incorporating uncertainty in the evaluation of LLMs.
연구 동기 및 목표
- LLM을 정확도뿐만 아니라 불확실성으로 평가해야 할 필요성을 제기한다.
- LLMs를 위한 conformal prediction에 기반한 불확실성 정량화 방법을 제안한다.
- MCQA 재구성으로 다섯 가지 NLP 작업에서 여덟 개의 오픈 소스 LLM을 벤치마크한다.
- Uncertainty-aware Accuracy (UAcc) 지표를 도입하고 검증한다.
제안 방법
- 다섯 가지 NLP 작업을 다지선다형 문제로 변환하여 LLM으로부터 각 옵션의 소프트맥스 점수를 얻는다.
- LAC와 APS의 두 conformal 점수로 conformal prediction을 적용하여 커버리지가 보장되는 예측 집합을 생성한다.
- Base, Shared Instruction, Task-specific Instruction의 세 가지 프롬프트 전략에서 기본 사전학습 모델과 지시문 미세조정된 LLM 변형을 비교한다.
- 정확도(Acc), 세트 크기(SS), 그리고 Acc/SS × sqrt(|Y|)로 정의되는 Uncertainty-aware Accuracy (UAcc)를 사용해 평가한다.
- 모델 규모, 지시문 미세조정, 보정 데이터 비율이 불확실성과 성능에 미치는 영향을 조사한다.

실험 결과
연구 질문
- RQ1Conformal prediction으로 측정된 불확실성이 다양한 LLM에서 전통적 정확도와 어떤 관계가 있는가?
- RQ2더 큰 모델 크기가 실제 벤치마크에서 불확실성을 증가시키는가, 감소시키는가?
- RQ3지시문 미세조정이 정확도, 불확실성, 제안된 UAcc 지표에 어떤 영향을 미치는가?
- RQ4UAcc가 정확도만으로는 바뀌지 않는 LLM 간의 상대 순위를 바꿀 수 있는가?
- RQ5보정 데이터 비율이 불확실성 정량화에 미치는 영향은 무엇인가?
주요 결과
- 더 높은 정확도의 LLM일수록 실제로는 더 높은 불확실성을 보일 수 있다.
- 더 큰 규모의 LLM은 일부 작업에서 더 큰 불확실성을 보일 수 있다.
- 지시문 미세조정은 불확실성을 증가시키는 경향이 있다.
- UAcc 지표는 상대적 개선을 확대하거나 축소시킬 수 있으며 순위를 바꿀 수 있다.
- 보정 데이터 비율은 그들의 설정에서 커버리지, SS, 및 UAcc에 거의 영향이 없음을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.