[論文レビュー] Knowledge Boundary Discovery for Large Language Models
要点: 本論文はKnowledge Boundary Discovery (KBD)を提案する。これはエントロピーに基づく部分観測RLを用いて、LLMの知識境界を自動的に検出する枠組みである。境界内の質問と境界外の質問を生成する。
We propose Knowledge Boundary Discovery (KBD), a reinforcement learning based framework to explore the knowledge boundaries of the Large Language Models (LLMs). We define the knowledge boundary by automatically generating two types of questions: (i) those the LLM can confidently answer (within-knowledge boundary) and (ii) those it cannot (beyond-knowledge boundary). Iteratively exploring and exploiting the LLM's responses to find its knowledge boundaries is challenging because of the hallucination phenomenon. To find the knowledge boundaries of an LLM, the agent interacts with the LLM under the modeling of exploring a partially observable environment. The agent generates a progressive question as the action, adopts an entropy reduction as the reward, receives the LLM's response as the observation and updates its belief states. We demonstrate that the KBD detects knowledge boundaries of LLMs by automatically finding a set of non-trivial answerable and unanswerable questions. We validate the KBD by comparing its generated knowledge boundaries with manually crafted LLM benchmark datasets. Experiments show that our KBD-generated question set is comparable to the human-generated datasets. Our approach paves a new way to evaluate LLMs.
研究の動機と目的
- LLMsの知識境界を自信を持って回答可能な質問と回答不能な質問として定義する。
- これらの境界を動的に発見する対話型RLフレームワークを開発する。
- エントロピーに基づく報酬と情報利得を活用して境界探索を導く。
- KBDで生成された質問が非自明で人間の基準に匹敵することを示す。
提案手法
- 部分観測を扱うためLLMとの相互作用をPOMDPとしてモデル化する。
- LLMの応答から更新される境界状態の信念状態を使用する。
- 進行的な質問を行動として生成し、エントロピーの変化を報酬として用いる(情報利得を考慮)。
- 探索と利用のバランスを取るためepsilon-greedyポリシーでQ学習を用いる。
- 境界内/境界外の質問を区別するためにエントロピー閾値で応答を分類する(例: 境界のE_th)。
実験結果
リサーチクエスチョン
- RQ1LLM応答のエントロピーは知識境界の内側と外側を信頼性高く区別できるか。
- RQ2RLエージェントは知識境界付近で非自明な質問を自動生成できるか。
- RQ3KBD生成の質問は品質において人間が作成した基準に近いか。
- RQ4KBDは専門家の質問およびランダムな質問と比較して境界発見においてどう違うか。
主な発見
- エントロピーに基づく信頼度推定は回答不能な質問を効果的に同定し、知識境界を描く。多くのデータセットでS_awareが高い。
- KBD生成の質問は非自明で境界近傍のサンプルを形成し、意味空間に埋め込んだ場合にランダムな質問とは異なる。
- KBDは医療、バイオ技術、科学、社会・人文学などの領域で一貫した知識境界を発見する。
- KBD生成データセットは複数の対象モデルにおいて人間生成データセットと同等のEERとF1スコアを示す。
- RLエージェントはポリシーを収束させ、報酬の累積値は約50エピソード後に安定化し、境界学習が成功していることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。