[논문 리뷰] Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection
이 논문은 다중 후보 답변을 반영하고 정당화한 다음 joint confidence score를 추정하여 블랙박스 LLM의 신뢰도 추정치를 보정하는 다중 답변 반영 프레임워크(TTA)를 도입합니다.
Self-detection for Large Language Models (LLMs) seeks to evaluate the trustworthiness of the LLM's output by leveraging its own capabilities, thereby alleviating the issue of output hallucination. However, existing self-detection approaches only retrospectively evaluate answers generated by LLM, typically leading to the over-trust in incorrectly generated answers. To tackle this limitation, we propose a novel self-detection paradigm that considers the comprehensive answer space beyond LLM-generated answers. It thoroughly compares the trustworthiness of multiple candidate answers to mitigate the over-trust in LLM-generated incorrect answers. Building upon this paradigm, we introduce a two-step framework, which firstly instructs LLM to reflect and provide justifications for each candidate answer, and then aggregates the justifications for comprehensive target answer evaluation. This framework can be seamlessly integrated with existing approaches for superior self-detection. Extensive experiments on six datasets spanning three tasks demonstrate the effectiveness of the proposed framework.
연구 동기 및 목표
- 블랙박스 API LLM의 과신 및 환각 현상을 완화하기 위한 보정된 신뢰도 추정의 동기를 부여한다.
- 여러 후보 답변 간의 신뢰성을 비교하기 위한 다중 답변 평가 체계를 제안한다.
- 각 답변에 대한 정당화를 생성하고 공동 신뢰도 추정을 수행하는 두 단계의 Think Twice Before Assure(TTA) 프레임워크를 개발한다.
- TTA가 보정성을 개선하고 여러 작업 및 데이터셋에서 기존의 보정 방법을 보강할 수 있음을 시연한다.
제안 방법
- 질문에 대해 N개의 후보 답변을 고려하고 그들의 평가를 집계하여 대상 답변의 신뢰도를 정제하는 다중 답변 평가 체계를 제안한다.
- 1단계: Reflection and Justification(반영 및 정당화), LLM이 지정된 프롬프트 p^e를 사용하여 각 후보 답변에 대한 정당화를 생성한다.
- 2단계: Joint Confidence Estimation(공동 신뢰도 추정), 정당화 e_i를 Top-K verbalized 방식의 프롬프트 p^v를 사용해 통합하여 대상 답변의 보정된 신뢰도 c를 얻어낸다.
- TTA는 추가 보정 이득을 위해 기존 방법(예: Top-K verbalized, CAPE, 또는 프롬프트 앙상블)과 결합될 수 있다.
- 실험은 세 가지 작업에 걸친 여섯 개 데이터셋에서 여러 LLM(GPT-3.5, GPT-4, GLM-4)을 사용하여 TTA를 기준선과 비교한다.
실험 결과
연구 질문
- RQ1다중 후보 답변을 고려하는 것이 단일 답변 방식에 비해 LLM 출력의 신뢰도 보정에 어떠한 영향을 미치는가?
- RQ2정당화와 공동 추정을 포함한 두 단계의 프레임워크가 기존의 자기 일관성 및 프롬프트 앙상블 방식보다 보정을 향상시킬 수 있는가?
- RQ3TTA 프레임워크가 다양한 작업, 데이터셋, LLM에서 견고하며 다른 보정 기법과 시너지를 낼 수 있는가?
주요 결과
- TTA는 SA, NLI, CQA 작업에서 여려 가지 기준선보다 보정성(AUROC 및 PRAUC)을 향상시킨다.
- Top-K verbalized 또는 프롬프트 앙상블 방식과 TTA를 결합하면 데이터셋과 모델 전반에서 추가 보정 이득이 발생한다.
- 연구에서 다중 정당화를 공동으로 고려하고 프롬프트의 순서를 섞는 것이 성능을 향상시키고 편향을 줄임을 보여주는 ablation 연구가 있다.
- TTA는 올바른 답과 잘못된 답 사이의 신뢰도 점수 겹침을 줄여 선택적 예측 시나리오에 도움을 준다.
- 성능 이득은 서로 다른 LLM(GPT-3.5, GPT-4, GLM-4)과 대상 답변에서 관찰되며, 프롬프트 설계 및 작업 유형에 따라 민감도가 일부 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.