[论文解读] Knowledge Boundary Discovery for Large Language Models
本论文引入 Knowledge Boundary Discovery (KBD),一种通过在边界内提问与越界提问来生成边界的强化学习框架,利用熵导向的部分可观测强化学习实现知识边界的自动发现。
We propose Knowledge Boundary Discovery (KBD), a reinforcement learning based framework to explore the knowledge boundaries of the Large Language Models (LLMs). We define the knowledge boundary by automatically generating two types of questions: (i) those the LLM can confidently answer (within-knowledge boundary) and (ii) those it cannot (beyond-knowledge boundary). Iteratively exploring and exploiting the LLM's responses to find its knowledge boundaries is challenging because of the hallucination phenomenon. To find the knowledge boundaries of an LLM, the agent interacts with the LLM under the modeling of exploring a partially observable environment. The agent generates a progressive question as the action, adopts an entropy reduction as the reward, receives the LLM's response as the observation and updates its belief states. We demonstrate that the KBD detects knowledge boundaries of LLMs by automatically finding a set of non-trivial answerable and unanswerable questions. We validate the KBD by comparing its generated knowledge boundaries with manually crafted LLM benchmark datasets. Experiments show that our KBD-generated question set is comparable to the human-generated datasets. Our approach paves a new way to evaluate LLMs.
研究动机与目标
- 将LLM的知识边界定义为可自信回答的问题与不可回答的问题的区分。
- 开发一个交互式RL框架以动态发现这些边界。
- 利用基于熵的奖励和信息增益来引导边界探索。
- 证明KBD生成的问题具有非平凡性,并可与人类基准相媲美。
提出的方法
- 将与LLM的交互建模为POMDP以处理部分可观测性。
- 利用对知识边界状态的信念状态,基于LLM的响应进行更新。
- 将渐进性问题作为动作生成,并将熵变化作为奖励(并考虑信息增益)。
- 采用带epsilon-greedy策略的Q-learning以平衡探索与开发。
- 通过熵阈值将回答分为边界内的问题与边界外的问题(如 E_th 代表边界)。
实验结果
研究问题
- RQ1LLM回答的熵是否能可靠地将边界内/边界外区分开来?
- RQ2RL代理能否自主生成接近知识边界的非平凡问题?
- RQ3KBD生成的问题是否在质量上接近人类设计的基准?
- RQ4KBD与专家提问和随机提问在边界发现方面有何差异?
主要发现
- 基于熵的置信度估计能有效识别无法回答的问题并划定知识边界,在S_aware上在多数据集表现突出。
- KBD生成的问题形成非平凡的、边界邻近样本,在语义空间嵌入时与随机问题有明显差异。
- KBD在不同领域(医学、生物技术、科学、社会/人文学科)中发现连贯的知识边界。
- KBD生成的数据集在多个目标模型上获得的EER和F1分数可与人类生成的数据集相媲美。
- RL代理的策略已收敛,累计奖励在约50次回合后稳定,表明边界学习成功。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。