Skip to main content
QUICK REVIEW

[논문 리뷰] Meta-Path Guided Embedding for Similarity Search in Large-Scale Heterogeneous Information Networks

Jingbo Shang, Meng Qu|arXiv (Cornell University)|2016. 10. 31.
Advanced Graph Neural Networks참고 문헌 33인용 수 115
한 줄 요약

ESim 학습 네트워크의 사용자 지정 meta-paths를 가이드로 하는 vertex 임베딩을 통해 대형 이질 정보 네트워크(HIN)에서 효율적인 유사도 검색을 가능하게 하는 확장 가능한 샘플링 기반 최적화 프레임워크. 이는 최첨단 방법들을 능가하고 대형 HIN으로 확장된다.

ABSTRACT

Most real-world data can be modeled as heterogeneous information networks (HINs) consisting of vertices of multiple types and their relationships. Search for similar vertices of the same type in large HINs, such as bibliographic networks and business-review networks, is a fundamental problem with broad applications. Although similarity search in HINs has been studied previously, most existing approaches neither explore rich semantic information embedded in the network structures nor take user's preference as a guidance. In this paper, we re-examine similarity search in HINs and propose a novel embedding-based framework. It models vertices as low-dimensional vectors to explore network structure-embedded similarity. To accommodate user preferences at defining similarity semantics, our proposed framework, ESim, accepts user-defined meta-paths as guidance to learn vertex vectors in a user-preferred embedding space. Moreover, an efficient and parallel sampling-based optimization algorithm has been developed to learn embeddings in large-scale HINs. Extensive experiments on real-world large-scale HINs demonstrate a significant improvement on the effectiveness of ESim over several state-of-the-art algorithms as well as its scalability.

연구 동기 및 목표

  • 이질 정보 네트워크(HINs)에서 유사도 검색의 필요성을 제시하고 사용자 가이드 메타-path를 통해 풍부한 의미를 포착한다.
  • 메타-path 의미에 맞춰 정점들을 저차원 벡터로 표현하는 임베딩 기반 프레임워크를 제안한다.
  • 대규모 HIN에서 임베딩을 학습하기 위한 확장 가능하고 샘플링 기반의 최적화 알고리즘을 개발한다.
  • 학습된 임베딩에 대한 코사인 유사도를 사용하여 온라인 유사도 질의를 가능하게 한다.
  • ESim을 최첨단 방법과 비교하고 실제 세계의 HIN에서 확장성과 효과를 입증한다.

제안 방법

  • 사용자 지정 meta-path M을 따르는 경로 인스턴스의 동시 발생을 최대화하여 HIN 구조를 보존하는 확률적 임베딩 모델을 도입한다.
  • 메타-path 의미를 인코딩하기 위해 f(u,v,M) = μ_M + p_M^T x_u + q_M^T x_v + x_u^T x_v를 사용하고, f(u,v,M)에 대한 소프트맥스 방식으로 Pr(v|u,M)를 계산한다.
  • 관찰된 경로 인스턴스와 잡음 샘플을 구분하여 임베딩을 효율적으로 학습하기 위해 Noise-Contrastive Estimation (NCE)을 채택한다.
  • 경로 정의 옵션으로 순차적(seq)과 쌍(pair) 두 가지를 탐색하고, 쌍(pair)이 더 효과적인 것으로 나타났다.
  • 확장성을 위해 확률적 경사 하강법과 병렬화(Hogwild)로 온라인 학습을 수행하고, 온라인 질의에는 정규화된 임베딩 간 코사인 유사도를 사용한다.
  • M을 따르는 경로 인스턴스의 상수 시간 온라인 샘플링을 가능하게 하는 C(u,i|M)의 동적 프로그래밍 기반 선계산을 개발한다.
  • 선택적으로 여러 meta-path의 가중 합을 각자의 손실 함수를 가중 합으로 합산하여 지원한다.

실험 결과

연구 질문

  • RQ1사용자 가이드 meta-path를 임베딩 프레임워크에 통합하여 HIN에서 의미론적 유사도를 정의할 수 있는가?
  • RQ2샘플링 기반의 임베딩 주도 접근법이 대규모 HIN에서 기존의 meta-path 기반 유사도 측정(PathSim 등)과 동질 네트워크 임베딩을 능가할 수 있는가?
  • RQ3매우 큰 HIN에서 확장 가능한 학습과 빠른 온라인 유사도 질의를 가능하게 하는 알고리즘과 데이터 구조는 무엇인가?
  • RQ4DBLP 및 Yelp와 같은 다양한 실제 데이터셋에서 메타-path 안내를 포함하는 것이 유사도 검색 품질을 향상시키는가?

주요 결과

  • 제안된 ESim 프레임워크는 여러 최첨단 방법들에 비해 효과 측면에서 상당한 개선을 달성한다.
  • ESim은 새로운 샘플링 기반 최적화 및 병렬 학습 프레임워크를 통해 대규모 HIN에 확장된다.
  • 효율적인 선계산 및 온라인 샘플링으로 각 반복에서 상수 시간의 경로 인스턴스 샘플링을 가능하게 한다.
  • 학습된 임베딩의 코사인 유사도는 근사 최근접 이웃 탐색을 통해 빠른 온라인 top-k 유사도 질의를 지원한다.
  • 실제 HIN(DBLP 및 Yelp)에서의 실험은 접근법을 검증하고 확장성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.