Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Learning-based Method for Expressing Knowledge Boundary of Black-Box LLM

Haotian Sheng, Heyong Wang|arXiv (Cornell University)|2026. 02. 11.
Topic Modeling인용 수 0
한 줄 요약

논문은 LSCL을 제시한다, 지식-증류 프레임워크를 통해 블랙박스 LLM의 지식 경계를 표현하는 심층 학습 방법이며, 토큰 확률을 사용할 수 없을 때를 위한 적응형 변형 포함.

ABSTRACT

Large Language Models (LLMs) have achieved remarkable success, however, the emergence of content generation distortion (hallucination) limits their practical applications. The core cause of hallucination lies in LLMs' lack of awareness regarding their stored internal knowledge, preventing them from expressing their knowledge state on questions beyond their internal knowledge boundaries, as humans do. However, existing research on knowledge boundary expression primarily focuses on white-box LLMs, leaving methods suitable for black-box LLMs which offer only API access without revealing internal parameters-largely unexplored. Against this backdrop, this paper proposes LSCL (LLM-Supervised Confidence Learning), a deep learning-based method for expressing the knowledge boundaries of black-box LLMs. Based on the knowledge distillation framework, this method designs a deep learning model. Taking the input question, output answer, and token probability from a black-box LLM as inputs, it constructs a mapping between the inputs and the model' internal knowledge state, enabling the quantification and expression of the black-box LLM' knowledge boundaries. Experiments conducted on diverse public datasets and with multiple prominent black-box LLMs demonstrate that LSCL effectively assists black-box LLMs in accurately expressing their knowledge boundaries. It significantly outperforms existing baseline models on metrics such as accuracy and recall rate. Furthermore, considering scenarios where some black-box LLMs do not support access to token probability, an adaptive alternative method is proposed. The performance of this alternative approach is close to that of LSCL and surpasses baseline models.

연구 동기 및 목표

  • LLM의 내부 지식 경계를 인지하도록 하여 환각 문제를 해결한다.
  • API 접근만으로도 블랙박스 LLM의 지식 상태를 표현하는 방법을 개발한다.
  • 질문, 답변, 토큰 확률을 모델의 내부 지식 상태에 매핑하는 입력을 정량화하고 매핑한다.
  • 다양한 데이터셋과 다수의 블랙박스 LLM에 대해 효과를 입증한다.
  • 토큰 확률 접근이 불가능한 시나리오에 대해 적응형 대안을 제공한다.

제안 방법

  • 지식 증류 프레임워크에 기반하여 입력에서 지식 상태로의 매핑을 학습한다.
  • 입력에는 질문, LLM의 출력 및 블랙박스 LLM의 토큰 확률이 포함된다.
  • LSCL이라는 심층 모델을 학습시켜 LLM의 지식 경계를 정량화하고 표현한다.
  • 다수의 공개 데이터셋과 유명한 블랙박스 LLM을 대상으로 평가한다.
  • 토큰 확 probabilities가 불가한 경우 토큰 확률을 생략하고도 성능을 유지하는 적응형 변형을 제안한다.

실험 결과

연구 질문

  • RQ1LSCL이 블랙박스 LLM의 지식 경계를 정확하게 표현할 수 있는가?
  • RQ2토큰 확률이 이용 가능할 때 LSCL이 정확도와 재현율에서 기존 베이스라인 모델을 능가하는가?
  • RQ3토큰 확률에 접근할 수 없는 경우 적응형 변형은 어떤 성능을 보이는가?
  • RQ4다양한 데이터셋과 다수의 블랙박스 LLM에 걸쳐 방법이 효과적인가?

주요 결과

  • LSCL은 블랙박스 LLM이 지식 경계를 표현하는 데 효과적으로 도움을 준다.
  • LSCL은 실험 전반에서 정확도와 재현율 측면에서 기존 베이스라인을 상당히 능가한다.
  • 적응형 대안은 LSCL에 근접한 성능을 달성하고 토큰 확률 없이도 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.