Skip to main content
QUICK REVIEW

[논문 리뷰] Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models

Jinhao Duan, Hao Cheng|arXiv (Cornell University)|2023. 07. 03.
Topic Modeling인용 수 10
한 줄 요약

이 논문은 Shifting Attention to Relevance (SAR)를 도입하여 의미적 관련성에 따라 토큰과 문장을 가중함으로써 자유 형식 LLM의 불확실성 추정을 개선하고, 여러 모델과 도메인에서 이전 방법들을 능가한다.

ABSTRACT

Large Language Models (LLMs) show promising results in language generation and instruction following but frequently "hallucinate", making their outputs less reliable. Despite Uncertainty Quantification's (UQ) potential solutions, implementing it accurately within LLMs is challenging. Our research introduces a simple heuristic: not all tokens in auto-regressive LLM text equally represent the underlying meaning, as "linguistic redundancy" often allows a few keywords to convey the essence of long sentences. However, current methods underestimate this inequality when assessing uncertainty, causing tokens with limited semantics to be equally or excessively weighted in UQ. To correct this, we propose Shifting Attention to more Relevant (SAR) components at both token- and sentence-levels for better UQ. We conduct extensive experiments involving a range of popular "off-the-shelf" LLMs, such as Vicuna, WizardLM, and LLaMA-2-chat, with model sizes extending up to 33B parameters. We evaluate various free-form question-answering tasks, encompassing domains such as reading comprehension, science Q&A, and medical Q&A. Our experimental results, coupled with a comprehensive demographic analysis, demonstrate the superior performance of SAR. The code is available at https://github.com/jinhaoduan/SAR.

연구 동기 및 목표

  • 토큰- 및 문장- 수준의 생성 불평등이 자유 형식 LLM의 불확실성 추정에 어떤 영향을 미치는지 식별한다.
  • 토큰과 문장과 같이 더 관련 있는 구성 요소로 주의를 이동시켜 이러한 불평등을 완화하는 방법을 제안한다.
  • 다양한 QA 작업과 도메인에 걸쳐 시판되는 instruction-tuned LLM 및 사전 학습된 LLM에서 SAR를 평가한다.

제안 방법

  • 토큰- 및 문장- 수준의 관련성 및 불확실성 비율(R_T, UP_T, R_S, UP_S)을 정의한다.
  • 토큰 제거에 따른 의미 변화로 토큰-레벨 관련성을 측정하고, RoBERTa-large cross-encoder를 의미적 유사도 함수 g(·)로 사용한다.
  • 정규화된 관련성으로 토큰 엔트로피를 가중하여 토큰-레벨 시프트 엔트로피 E_T를 계산한다(Eq. 7).
  • 생성된 문장들 간의 의미적 유사성과 그 생성 확률을 사용하여 문장-레벨 관련성 R_S를 계산한다(Eq. 4).
  • 문장 관련성에 가중치를 두어 문장-레벨 시프트 엔트로피 E_S를 계산한다(Eq. 9).
  • 토큰- 및 문장-레벨 시프트를 SAR로 결합하여 엔트로피 계산에서 확률을 토큰-SAR에서 도출된 p′(s|x)로 대체한다(Eq. 11).

실험 결과

연구 질문

  • RQ1토큰- 및 문장- 수준의 생성 불평등이 자유 형식 LLM 생성의 불확실성 추정에 어떻게 영향을 미치는가?
  • RQ2언어적으로 관련 있는 구성요소에 주의를 재가중하는 것이 LLM 출력의 불확실성 추정 정확도를 향상시킬 수 있는가?
  • RQ3token-SAR, sent-SAR, 및 SAR가 다양한 LLM 및 도메인에서 기존의 불확실성 측정치를 능가하는가?

주요 결과

  • 불확실성 추정은 의미적으로 큰 의미를 담지 않는 무관한 토큰과 문장에 의해 크게 편향된다.
  • Token-SAR 및 sent-SAR은 다수의 모델과 데이터세트에서 기준치 대비 AUROC 점수를 일관되게 향상시킨다.
  • 공동 SAR(토큰 및 문장 시프트)은 개별 구성요소보다 우수하며 SE 및 다른 기준치 대비 주목할 만한 이득이 있다.
  • SAR은 33B 파라미터까지의 지시-튜닝된 LLM(Vicuna, WizardLM, LLaMA-2-chat) 및 사전 학습된 LLM(OPT, LLaMA) 전반에서 강건성을 보인다.
  • 의료 QA 도메인(MedQA, MedMCQA)에서 대부분의 설정에서 SAR이 더 나은 성능을 달성한다.
  • SAR은 생성 측면에서도 효율적이며 불과 5번의 생성으로도 강력한 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.