[论文解读] Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning.
本文提出了一种用于知识图谱问答任务中深度强化学习智能体的三元奖励机制,将二元奖励替换为三种结果:正确答案、错误答案或放弃回答。通过训练智能体在不确定时避免回答,该方法在仅造成最小召回率损失的情况下显著提升了答案精确度,优于无法在现实场景中建模置信度的标准指标。
In this paper, we investigate the challenges of using reinforcement learning agents for question-answering over knowledge graphs for real-world applications. We examine the performance metrics used by state-of-the-art systems and determine that they are inadequate for such settings. More specifically, they do not evaluate the systems correctly for situations when there is no answer available and thus agents optimized for these metrics are poor at modeling confidence. We introduce a simple new performance metric for evaluating question-answering agents that is more representative of practical usage conditions, and optimize for this metric by extending the binary reward structure used in prior work to a ternary reward structure which also rewards an agent for not answering a question rather than giving an incorrect answer. We show that this can drastically improve the precision of answered questions while only not answering a limited number of previously correctly answered questions. Employing a supervised learning strategy using depth-first-search paths to bootstrap the reinforcement learning algorithm further improves performance.
研究动机与目标
- 为解决现有性能指标在评估知识图谱问答智能体时的不足,特别是在处理无法回答的问题时的缺陷。
- 设计一种新评估指标,更好地反映实际部署环境中置信度与放弃回答至关重要的情况。
- 开发一种强化学习框架,利用三元奖励结构来优化该新指标。
- 通过在不确定时允许放弃回答来提升智能体性能,从而在不显著损失召回率的前提下提高精确度。
- 通过使用有监督的深度优先搜索路径进行自举,提升学习效率。
提出的方法
- 将标准的二元奖励设置扩展为三元奖励结构:正确答案得+1分,错误答案得-1分,当无法获得有把握的答案时放弃回答得0分。
- 重新表述强化学习目标,优先最小化错误回答,同时最大化正确回答和放弃回答的数量。
- 引入一种置信度感知策略,学习在不确定性较高时避免回答,该策略通过三元奖励信号进行建模。
- 使用知识图谱中的有监督深度优先搜索路径对智能体策略进行微调,以加速收敛。
- 采用改进的奖励函数,使用深度Q网络(DQN)端到端训练智能体完成问答任务。
- 使用一种新指标评估性能,该指标对错误回答施加惩罚,同时奖励放弃回答,更好地反映现实世界部署需求。
实验结果
研究问题
- RQ1标准的二元奖励指标为何无法反映现实世界问答场景中无法回答问题频繁出现的情况?
- RQ2包含放弃回答的三元奖励结构是否能提升知识图谱问答智能体的精确度与可靠性?
- RQ3将放弃回答作为有效动作引入后,能在多大程度上减少错误回答,同时又不会显著降低回答的问题数量?
- RQ4使用有监督DFS路径进行自举对三元奖励强化学习智能体的收敛性和性能有何影响?
- RQ5所提出的指标是否比现有评估基准更能反映实际部署条件?
主要发现
- 三元奖励机制通过允许智能体在不确定时放弃回答,显著提升了答案精确度,减少了错误响应。
- 该方法保持了较高的召回率,几乎回答了所有之前能正确回答的问题,仅新增了少量放弃回答。
- 新评估指标通过考虑置信度和无法回答的问题,更好地捕捉了现实世界中的性能表现,而标准指标则不具备此特性。
- 使用有监督DFS路径进行自举可加速学习过程并提升最终性能,尤其在训练初期效果显著。
- 使用三元奖励训练的智能体在精确度和置信度校准方面均优于使用二元奖励训练的智能体。
- 该方法表明,奖励放弃回答是一种可行且有效的策略,可提升知识图谱问答系统在现实场景中的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。