Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Hop Knowledge Graph Reasoning with Reward Shaping

Xi Lin, Richard Socher|arXiv (Cornell University)|2018. 08. 31.
Advanced Graph Neural Networks참고 문헌 27인용 수 37
한 줄 요약

이 논문은 사전 훈련된 임베딩을 사용해 보상 구조를 조정하고 액션 드롭아웃을 적용하여 다양한 경로 탐색을 장려함으로써, 다중 힙 지식 그래프 추론을 위한 강화학습 접근법을 제안한다. 이 방법은 기존의 경로 기반 모델보다 뛰어난 성능을 보이며, 다섯 가지 벤치마크 데이터셋에서 임베딩 기반 모델과 비교할 만한 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Multi-hop reasoning is an effective approach for query answering (QA) over incomplete knowledge graphs (KGs). The problem can be formulated in a reinforcement learning (RL) setup, where a policy-based agent sequentially extends its inference path until it reaches a target. However, in an incomplete KG environment, the agent receives low-quality rewards corrupted by false negatives in the training data, which harms generalization at test time. Furthermore, since no golden action sequence is used for training, the agent can be misled by spurious search trajectories that incidentally lead to the correct answer. We propose two modeling advances to address both issues: (1) we reduce the impact of false negative supervision by adopting a pretrained one-hop embedding model to estimate the reward of unobserved facts; (2) we counter the sensitivity to spurious paths of on-policy RL by forcing the agent to explore a diverse set of paths using randomly generated edge masks. Our approach significantly improves over existing path-based KGQA models on several benchmark datasets and is comparable or better than embedding-based models.

연구 동기 및 목표

  • 강화학습 기반 추론 중에 불완전한 지식 그래프에서 발생하는 잘못된 음성 보상 문제를 해결하기 위해.
  • 온정책 강화학습 훈련 중에 우연히 올바른 답변에 도달하는 유사 경로에 정책이 편향되는 것을 줄이기 위해.
  • 데이터의 불완전성 하에서 다중 힙 지식 그래프 질의 응답의 일반화 및 강건성 향상을 위해.
  • 경로 기반 모델과 임베딩 기반 모델 간의 성능 격차를 해소하기 위해.

제안 방법

  • 사전 훈련된 일단계 지식 그래프 임베딩 모델(예: ConvE)을 사용해 관측되지 않았지만 잠재적으로 올바른 사실에 대한 부드러운 보상을 추정함으로써 보상 구조 조정을 적용하여 잘못된 음성의 영향을 줄인다.
  • 액션 드롭아웃은 각 단계에서 출력 엣지를 무작위로 마스킹하는 정규화 기법으로, 다양한 경로 탐색을 장려하고 유사 경로에 대한 과적합을 줄인다.
  • 사전 훈련된 임베딩 모델에서 유도된 수정된 보상 신호를 사용해 온정책 강화학습(REINFORCE)을 수행함으로써 정책 학습을 이끈다.
  • 엔드 투 엔드로 훈련되며, 사전에 계산된 경로에 의존하지 않고, 에이전트가 질문에 답하기 위해 지식 그래프를 순차적으로 탐색하는 순차적 의사결정 프레임워크에서 작동한다.
  • 지식 기반 보상 추정과 확률적 탐색을 결합하여, 불완전한 지식 그래프 환경에서 정책의 일반화 능력을 향상시킨다.

실험 결과

연구 질문

  • RQ1강화학습 기반 다중 힙 추론 중에 불완전한 지식 그래프에서 잘못된 음성 지도를 어떻게 완화할 수 있는가?
  • RQ2온정책 강화학습에서 유사 경로의 남용이 지식 그래프 질의 응답(KGQA)의 정책 성능에 얼마나 큰 영향을 미치는가?
  • RQ3사전 훈련된 임베딩 모델을 통합하면 강화학습 기반 지식 그래프 추론에서 보상 추정과 일반화 능력이 향상되는가?
  • RQ4액션 드롭아웃을 통해 다양한 경로 탐색을 강제하면 일반화 및 강건성이 향상되는가?
  • RQ5경로 기반 강화학습 모델은 다중 힙 지식 그래프 질의 응답에서 최신 기술 수준의 임베딩 기반 모델과 비교할 만한 성능을 달성할 수 있는가?

주요 결과

  • 제안된 방법은 다섯 가지 벤치마크 데이터셋 중 네 개(UMSL, Kinship, FB15k-237, WN18RR)에서 최신 기술 수준의 성능을 달성하였으며, 이전의 경로 기반 모델 대비 MRR 향상이 뚜렷했다.
  • UMLS에서 모델은 MRR 70.9를 기록하여 기준 모델 대비 14.4% 향상되었으며, 임베딩 기반 모델과 동등하거나 이를 초월하는 성능을 보였다.
  • FB15k-237에서 MRR는 63.9에서 69.1로 상승하여 상대적 향상률 5.2%를 기록했으며, 임베딩 기반 모델인 ConvE와 유사한 성능을 보였다.
  • 액션 드롭아웃은 미리 보지 않은 질의에서 일관되게 성능 향상을 이끌었으며, 특히 UMLS, Kinship와 같이 관계의 다对다 밀도가 높은 데이터셋에서 가장 뚜렷한 성과를 보였다.
  • ConvE를 사용한 보상 구조 조정은 다대다 관계에서 성능 향상을 이끌었지만, WN18RR 및 NELL-995에서는 약간의 성능 저하를 보였으며, 이는 도메인에 따라 효과가 다름을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.