Skip to main content
QUICK REVIEW

[논문 리뷰] Heterogeneous Information Network Embedding for Meta Path based Proximity

Zhipeng Huang, Nikos Mamoulis|arXiv (Cornell University)|2017. 01. 19.
Internet Traffic Analysis and Secure E-voting참고 문헌 32인용 수 98
한 줄 요약

HINE는 이질 정보 네트워크의 저차원 임베딩을 학습하여 메타 경로 기반 근접도(PathCount 또는 PCRW)를 보존하고, 여러 작업에서 LINE 및 DeepWalk보다 우수한 성능을 보인다.

ABSTRACT

A network embedding is a representation of a large graph in a low-dimensional space, where vertices are modeled as vectors. The objective of a good embedding is to preserve the proximity between vertices in the original graph. This way, typical search and mining methods can be applied in the embedded space with the help of off-the-shelf multidimensional indexing approaches. Existing network embedding techniques focus on homogeneous networks, where all vertices are considered to belong to a single class.

연구 동기 및 목표

  • 메타 경로 근접도가 포착하는 의미를 보존하도록 HIN의 임베딩을 동기화한다.
  • 실험적 메타 경로 근접성과 임베딩 공간의 근접성 간의 거리를 최소화하는 목적을 정의한다.
  • 최적화를 가속하기 위한 음수 샘플링을 포함한 확장 가능한 학습 방식을 제안한다.
  • 링크 회복, 분류, 군집화, k-NN 검색, 시각화 등의 과제에서 효과를 입증한다.

제안 방법

  • 메타 경로 기반 근접도 s(.,.)를 길이 l까지의 메타 경로 인스턴스의 합으로 정의한다( PathCount 또는 PCRW 정의).
  • 동적 프로그래밍(Algorithm 1)을 사용하여 각 쌍에 대해 잘린 근접도 행렬을 계산한다.
  • 객체를 임베딩하기 위해 R^d의 벡터 v_i를 학습하여 p(o_i,o_j)=1/(1+e^{-v_i ⊗ v_j})를 모델링하고 경험적 근접도에 대한 KL-divergence를 최소화한다.
  • 목적을 근사하기 위한 음수 샘플링과 ASGD를 사용하여 최적화한다.
  • 근접도 측정으로 PCRW 또는 PathCount를 고려하며, 실험에서 일반적으로 PCRW가 PathCount보다 우수하다.

실험 결과

연구 질문

  • RQ1저차원 공간에서 메타 경로 기반 근접성이 보존되도록 HIN을 임베딩하는 방법은?
  • RQ2임베딩 품질에 대한 PCRW를 사용한 경우와 PathCount를 사용한 경우의 차이는 무엇인가?
  • RQ3음수 샘플링과 ASGD가 사소한 해 없이 확장 가능한 최적화를 제공할 수 있는가?
  • RQ4실제 HIN 데이터세트에서 네트워크 회복, 분류, 클러스터링, k-NN 검색, 시각화 등에서 HINE 임베딩은 어떤 성능을 보이는가?

주요 결과

  • 다중 엣지 유형 및 데이터세트에서 PCRW를 사용하는 HINE이 네트워크 회복에서 최고 성능을 달성한다.
  • 분류 및 시각화 과제에서 HINE_PCRW는 지속적으로 HINE_PC 및 기타 베이스라인(DeepWalk, LINE)을 능가한다.
  • 데이터세트 전반에 걸쳐 HINE_PCRW는 분류에서 Macro/F1 및 Micro/F1 점수를 더 높게 내고, 클러스터링에서 NMI를 더 높이는 경향이 있다.
  • 음수 샘플링과 ASGD는 확장 가능한 최적화를 가능하게 하며, 사소한 해의 위험을 완화하고 계산량을 줄인다.
  • k-NN 및 탑-k 목록 품질 측면에서 HINE_PCRW는 베이스라인보다 원래 HIN에 더 근접한 탑-k 목록을 생성하며, Spearman/Kendall 지표로 입증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.