[논문 리뷰] Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation
본 논문은 의미적 엔트로피를 도입한다. 이는 의미의 클러스터링과 의미에 대한 불확실성 추정을 통해 토큰 시퀀스가 아닌 의미에 기반한 불확실성을 고려하는 NLG의 비지도 불확실성 척도이며, QA 태스크에서 모델 정확도에 대한 예측력을 향상시킨다.
We introduce a method to measure uncertainty in large language models. For tasks like question answering, it is essential to know when we can trust the natural language outputs of foundation models. We show that measuring uncertainty in natural language is challenging because of "semantic equivalence" -- different sentences can mean the same thing. To overcome these challenges we introduce semantic entropy -- an entropy which incorporates linguistic invariances created by shared meanings. Our method is unsupervised, uses only a single model, and requires no modifications to off-the-shelf language models. In comprehensive ablation studies we show that the semantic entropy is more predictive of model accuracy on question answering data sets than comparable baselines.
연구 동기 및 목표
- 의미적 의미가 표면 형식이 아니라 중요한 자유 형식 NLG에서 신뢰할 수 있는 불확실성 척도의 필요성을 동기 부여한다.
- 의미가 토큰이 아니라 의미들 위의 엔트로피로서의 의미적 엔트로피를 제안한다.
- 상용 사전 학습 모델을 수정하지 않고 단일 모델을 사용한 실용적이고 비지도 학습 방법을 개발한다.
- 광범위한 제거실험을 통해 open- 및 closed-book QA 데이터셋(TriviaQA 및 CoQA)에서 효과를 입증한다.
제안 방법
- 같은 의미를 갖는 출력을 군집화하기 위해 양방향 함의로 의미적 동등성을 정의한다.
- 단일 모델에서 여러 시퀀스를 샘플링하고 이를 의미 기반 동등 클래스들로 클러스터링한다.
- 각 의미 클래스 내의 토큰 수준 확률을 모아 의미 분포에 대한 엔트리로서의 의미적 엔트로피를 계산한다.
- 관찰될 수 없는 의미들로 인해 의미적 엔트로피를 근사하기 위해 몬테카를로 추정법을 사용한다.
- 온도 및 방법(다항 샘플링/빔 샘플링)을 포함한 샘플링 전략을 분석하고 길이 정규화를 논의한다.

실험 결과
연구 질문
- RQ1NLG의 불확실성이 토큰이 아닌 의미 중심일 수 있으며 감독 없이도 양을 측정할 수 있는가?
- RQ2의미적 엔트로피가 표준 엔트로피나 베이스라인보다 QA 태스크에서 모델 정확도를 더 잘 예측하는가?
- RQ3의미 기반 불확실성 추정에서 다양성과 정확성의 균형을 맞추기 위해 샘플링과 클러스터링을 어떻게 구성해야 하는가?
- RQ4이 접근법은 모델 크기 및 TriviaQA/CoQA와 같은 QA 데이터세트에서도 robust한가?
주요 결과
- 의미적 엔트로피는 open- 및 closed-book QA 태스크에서 모델 정확도 예측에 있어 베이스라인을 능가한다.
- 이 방법은 모델 크기에 따라 확장되며 더 많은 샘플에서 이점을 얻지만 모델 수정이나 앙상블을 필요로 하지 않는다.
- 양방향 함의 클러스터링 알고리즘은 의미 기반 불확실성을 위한 의미적으로 동등한 출력을 효과적으로 묶는다.
- 다양성과 정확성의 균형을 맞추는 중간 수준의 샘플링 온도로 최적의 불확실성 성능이 달성된다.
- 더 긴 문장은 결합 가능도에 영향을 주어 특정 설정에서 길이 정규화 엔트로피에 대한 논의를 촉진한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.