QUICK REVIEW

[論文レビュー] Deep Learning-based Method for Expressing Knowledge Boundary of Black-Box LLM

Haotian Sheng, Heyong Wang|arXiv (Cornell University)|Feb 11, 2026

Topic Modeling被引用数 0

ひとこと要約

本論文は、LSCLという深層学習法を提案し、黒箱LLMの知識境界を知識蒸留フレームワークで表現する。トークン確率が取得不可の場合の適応的変異も含む。

ABSTRACT

Large Language Models (LLMs) have achieved remarkable success, however, the emergence of content generation distortion (hallucination) limits their practical applications. The core cause of hallucination lies in LLMs' lack of awareness regarding their stored internal knowledge, preventing them from expressing their knowledge state on questions beyond their internal knowledge boundaries, as humans do. However, existing research on knowledge boundary expression primarily focuses on white-box LLMs, leaving methods suitable for black-box LLMs which offer only API access without revealing internal parameters-largely unexplored. Against this backdrop, this paper proposes LSCL (LLM-Supervised Confidence Learning), a deep learning-based method for expressing the knowledge boundaries of black-box LLMs. Based on the knowledge distillation framework, this method designs a deep learning model. Taking the input question, output answer, and token probability from a black-box LLM as inputs, it constructs a mapping between the inputs and the model' internal knowledge state, enabling the quantification and expression of the black-box LLM' knowledge boundaries. Experiments conducted on diverse public datasets and with multiple prominent black-box LLMs demonstrate that LSCL effectively assists black-box LLMs in accurately expressing their knowledge boundaries. It significantly outperforms existing baseline models on metrics such as accuracy and recall rate. Furthermore, considering scenarios where some black-box LLMs do not support access to token probability, an adaptive alternative method is proposed. The performance of this alternative approach is close to that of LSCL and surpasses baseline models.

研究の動機と目的

内部知識境界を意識させることで幻覚問題に対処する。
APIアクセスのみの黒箱LLMの知識状態を表現する方法を開発する。
入力（質問、回答、トークン確率）をモデルの内部知識状態へ写像する定量化とマッピングを行う。
多様なデータセットと複数の黒箱LLMを用いて有効性を示す。
トークン確率アクセスがないシナリオのための適応的代替案を提供する。

提案手法

知識蒸留フレームワークに基づき、入力から知識状態への写像を学習する。
入力には質問、LLMの出力、黒箱LLMのトークン確率が含まれる。
LLSMの知識境界を定量化・表現する深層モデル（LSCL）を学習する。
複数の公開データセットと著名な黒箱LLMを用いて評価する。
トークン確率が取得不可の場合にはそれを省略する適応的変異を提案しつつ、性能を維持する。

実験結果

リサーチクエスチョン

RQ1LSCLは黒箱LLMの知識境界を正確に表現できるか。
RQ2トークン確率が利用可能な場合、LSCLは精度とリコールでベースラインモデルを上回るか。
RQ3トークン確率がアクセス不可の場合、適応的変異はどの程度の性能を示すか。
RQ4多様なデータセットと複数の黒箱LLMに対して手法は有効か。

主な発見

LSCLは黒箱LLMが知識境界を表現するのを効果的に支援する。
LSCLは実験全体で精度とリコールの点で既存のベースラインを大幅に上回る。
適応的代替はLSCLに近い性能を達成し、トークン確率がなくてもベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。