QUICK REVIEW

[논문 리뷰] Learning Sequence Encoders for Temporal Knowledge Graph Completion

Alberto García-Durán, Sebastijan Dumančić|arXiv (Cornell University)|2018. 09. 10.

Advanced Graph Neural Networks참고 문헌 16인용 수 20

한 줄 요약

이 논문은 시간 지식 그래프 내 관계 유형에 대한 시간 인식 표현을 학습하기 위해 LSTMs를 사용한 시퀀스 인코딩 방법을 제안하며, 링크 예측 성능 향상을 가능하게 한다. 타임스탬프와 시간적 술어를 토큰 시퀀스로 모델링함으로써 기존의 TransE 및 distMult와 같은 표준 스코어링 함수를 향상시키며, 네 가지 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성한다. 특히 희소하고 이질적인 시간 표현을 다룰 때 유리하다.

ABSTRACT

Research on link prediction in knowledge graphs has mainly focused on static multi-relational data. In this work we consider temporal knowledge graphs where relations between entities may only hold for a time interval or a specific point in time. In line with previous work on static knowledge graphs, we propose to address this problem by learning latent entity and relation type representations. To incorporate temporal information, we utilize recurrent neural networks to learn time-aware representations of relation types which can be used in conjunction with existing latent factorization methods. The proposed approach is shown to be robust to common challenges in real-world KGs: the sparsity and heterogeneity of temporal expressions. Experiments show the benefits of our approach on four temporal KGs. The data sets are available under a permissive BSD-3 license 1.

연구 동기 및 목표

관계가 시간에 의해 제약을 받는 시간 지식 그래프에서 링크 예측 문제를 다루며, 이는 정적 지식 그래프 모델에서 자주 간과되는 문제이다.
실제 지식 그래프에서 시간 표현의 희소성과 이질성으로 인해 효과적인 표현 학습이 어렵다는 문제를 해결한다.
기존 지식 그래프 임베딩 방법의 핵심 스코어링 함수를 수정하지 않고도 시간 정보를 통합한다.
시간 토큰의 시퀀스 모델링을 통해 공통적인 인덕티브 바이어스를 학습함으로써 미리 보지 않은 타임스탬프로의 일반화를 가능하게 한다.

제안 방법

타임스탬프에서 유래한 숫자 시퀀스와 'since' 또는 'until'과 같은 관계 유형과 같은 토큰을 포함한 시퀀스로 시간적 사실을 표현한다.
이러한 토큰 시퀀스를 양방향 LSTM을 사용해 시간 인식 관계 임베딩으로 인코딩함으로써 시간 패턴과 구조적 규칙성을 포착한다.
학습된 시간 인식 관계 임베딩을 TransE 및 distMult와 같은 표준 스코어링 함수와 결합하여 링크 예측을 수행한다.
카테고리형 교차 엔트로피 손실과 드롭아웃을 사용한 정규화를 통해 Adam 최적화를 사용해 모델을 엔드 투 엔드로 훈련한다.
주어진 타임스탬프에 대한 주어진 예측 및 목적어 예측 작업에 모두 적용하며, MRR, hits@10, hits@1과 같은 표준 지표를 사용해 평가한다.
t-SNE 시각화를 통해 학습된 임베딩이 잠재 공간에서 의미 있는 시간적 구조를 포착하고 있음을 확인한다.

실험 결과

연구 질문

RQ1순환 신경망이 'since', '2009-01'과 같은 시간 토큰 시퀀스를 효과적으로 인코딩하여 지식 그래프 보완 성능을 향상시킬 수 있는가?
RQ2타임스탬프별로 독립적인 임베딩을 학습하는 것과 비교해, 토큰 수준에서 시간을 모델링하는 것이 일반화 능력과 성능에 어떤 영향을 미치는가?
RQ3시간 인식 표현이 희소하고 이질적인 시간 지식 그래프에서 링크 예측 성능을 얼마나 향상시킬 수 있는가?
RQ4학습 데이터에 해당 타임스탬프에 대한 충분한 예시가 없을 경우, 제안된 방법이 새로운 타임스탬프로의 일반화가 잘 이루어지는가?
RQ5TransE 및 distMult와 같은 기존 지식 그래프 임베딩 모델에 아키텍처 변경 없이 이 방법을 원활하게 통합할 수 있는가?

주요 결과

TA-TransE와 TA-distMult는 네 개의 시간 지식 그래프 데이터셋 전반에서 MRR, hits@10, hits@1에서 표준 TransE 및 distMult를 일관되게 능가한다.
YAGO15k에서 TransE보다 낮은 훈련 손실을 기록함으로써, 효과적인 시간 신호 활용 덕분에 최적화가 더 잘 이루어짐을 보여준다.
TTransE는 타임스탬프별로 독립적인 임베딩을 학습하지만, 높은 시간 다양성을 보이는 데이터셋(예: Wikidata)에서는 희소성으로 인해 성능이 열등하며, 제안된 방법은 더 나은 일반화 능력을 보인다.
t-SNE 시각화 결과, 시간 술어 시퀀스의 임베딩이 의미 있는 군집을 이룬다는 점에서 시간 의미를 효과적으로 포착하고 있음을 확인할 수 있다.
RNN 기반의 시퀀스 인코딩 덕분에, 같은 세기나 십년대와 같은 유사한 시간 패턴을 가진 새로운 타임스탬프로의 일반화가 잘 이루어진다.
시간 표현이 '2009-01'이나 'since 2009'처럼 비정규적이고 이질적인 경우에도 이를 토큰의 시퀀스로 간주함으로써, 이에 대한 처리가 효과적으로 이루어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.