[논문 리뷰] Reinforcement Learning Enhanced Multi-hop Reasoning for Temporal Knowledge Question Answering
이 논문은 다중 궤적 샘플링, 콜드 스타트 감독 파인튜닝, 그리고 Tree-Group Relative Policy Optimization (T-GRPO)을 통해 Temporal Knowledge Graph Question Answering(TKGQA)에서 전역 최적 다중 홉 추론을 달성하는 MRE를 소개합니다.
Temporal knowledge graph question answering (TKGQA) involves multi-hop reasoning over temporally constrained entity relationships in the knowledge graph to answer a given question. However, at each hop, large language models (LLMs) retrieve subgraphs with numerous temporally similar and semantically complex relations, increasing the risk of suboptimal decisions and error propagation. To address these challenges, we propose the multi-hop reasoning enhanced (MRE) framework, which enhances both forward and backward reasoning to improve the identification of globally optimal reasoning trajectories. Specifically, MRE begins with prompt engineering to guide the LLM in generating diverse reasoning trajectories for a given question. Valid reasoning trajectories are then selected for supervised fine-tuning, serving as a cold-start strategy. Finally, we introduce Tree-Group Relative Policy Optimization (T-GRPO), a recursive, tree-structured learning-by-exploration approach. At each hop, exploration establishes strong causal dependencies on the previous hop, while evaluation is informed by multi-path exploration feedback from subsequent hops. Experimental results on two TKGQA benchmarks indicate that the proposed MRE-based model consistently surpasses state-of-the-art (SOTA) approaches in handling complex multi-hop queries. Further analysis highlights improved interpretability and robustness to noisy temporal annotations.
연구 동기 및 목표
- TKGQA에서 단일 홉이나 로컬 최적 경로를 넘어서 전역(궤적 수준) 추론의 개선을 촉진한다.
- 구조화된 서브그래프 검색을 통해 다중 홉 시간 추론을 안내하기 위해 LLM을 활용한다.
- 희소 보상 문제를 완화하기 위해 다양한 궤적 샘플링, 콜드스타트 감독 파인튜닝, 그리고 트리 기반 강화학습을 포함하는 학습 파이프라인을 개발한다.
제안 방법
- GPT-4를 이용한 다중 궤적 샘플링으로 소수 예시 데이터셋에서 다양한 1-to-N 홉 추론 궤적을 생성한다.
- 타깃 LLM에 중간 추론 패턴을 각인하기 위한 콜드 스타트 감독 파인튜닝으로 파인튜닝한다.
- Tree-Group Relative Policy Optimization (T-GRPO): 각 홉의 탐색이 하위 트리를 구성하고 하류 평가에서 상류 결정으로 역방향 크레딧이 전달되는 트리 구조의 학습-탐색 접근 방식이다.
- 각 홉에서 상위-P 관련 사실을 선택하여 서브그래프를 구성하고, 다음 홉 결정을 안내하기 위해 히스토리 컨텍스트를 축적한다.
- GRPO를 사용하여 각 트리 안에서 탐색된 궤적들 간의 상대적 선호를 모델링하고 정책 업데이트를 수행하며, 학습 안정성을 위해 비동기 버퍼에 결과를 저장한다.
실험 결과
연구 질문
- RQ1LLM 기반 TKQA를 어떻게 안내하여 전역적으로 최적의 다중 홉 추론 궤적을 식별하게 할 수 있는가(로컬 최적의 단계가 아닌)?
- RQ2트리 구조 탐색과 역방향 크레딧(T-GRPO)이 다중 홉 시간 추론에서 희소 보상 신호 하의 학습 안정성과 궤적 품질을 향상시키는가?
- RQ3다양한 다중 홉 궤적과 콜드 스타트 감독 파인튜닝이 TKQA 모델의 강건성 및 해석가능성을 향상시키는가?
- RQ4MRE는 간단한 질문 대 간단한 여부에서 복잡한 질문에 이르기까지 표준 TKGQA 벤치마크에서 최첨단 baselines와 비교해 어떻게 성능을 보이나? (간단한 vs. 복잡한, 엔티티 중심 vs. 시간 중심 질문 각각)
주요 결과
- MRE는 CRONQUESTIONS에서 Hits@1 = 0.982 및 Hits@10 = 0.970로 최첨단 정확도를 달성한다.
- TimeQuestions에서 MRE는 전반적으로 강한 성능을 보이고 복잡한 시간 추론 카테고리(암시적 및 서수 질문)에서 선두를 차지한다.
- Ablation 연구에서 T-GRPO, 콜드 스타트 파인튜닝, 또는 다중 궤적 샘플링을 제거하면 성능이 저하되며, 가장 큰 하락은 다중 궤적 샘플링 제거 시 발생한다.
- MRE는 간단한 질문에서 거의 완벽에 가까운 성능(예: Hits@1 99.9%)을 유지하고 엔티티 및 시간 정답 타입 전반에서 견고한 성능을 보인다.
- Tree-structured reward propagation(T-GRPO)는 평면 GRPO 및 PPO보다 우수하며 더 적은 샘플로도 더 높은 Hits@1를 달성한다(예: T-GRPO의 peakHits@1 98.2%).
- 추론 깊이에 걸친 분석에서 MRE는 1-hop에서 3-hop 쿼리에 대해 일관되게 베이스라인을 상회하며, 더 깊고 더 복잡한 쿼리에서 상당한 이득이 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.