QUICK REVIEW

[논문 리뷰] Learning Discrete Structures for Graph Neural Networks

Luca Franceschi, Mathias Niepert|arXiv (Cornell University)|2019. 03. 28.

Advanced Graph Neural Networks참고 문헌 57인용 수 146

한 줄 요약

이 논문은 LDS를 제안하는데, 이는 그래프가 없거나 노이즈가 있을 때 그래프 기반 학습을 가능하게 하는 희소하고 확률적인 그래프 생성기와 GCN 매개변수를 함께 학습하는 이층 프레임워크이다. 이는 이산 엣지 변수들을 최적화하기 위해 직-through 추정기를 이용한 하이퍼그래디언트 기반 학습을 사용한다.

ABSTRACT

Graph neural networks (GNNs) are a popular class of machine learning models whose major advantage is their ability to incorporate a sparse and discrete dependency structure between data points. Unfortunately, GNNs can only be used when such a graph-structure is available. In practice, however, real-world graphs are often noisy and incomplete or might not be available at all. With this work, we propose to jointly learn the graph structure and the parameters of graph convolutional networks (GCNs) by approximately solving a bilevel program that learns a discrete probability distribution on the edges of the graph. This allows one to apply GCNs not only in scenarios where the given graph is incomplete or corrupted but also in those where a graph is not available. We conduct a series of experiments that analyze the behavior of the proposed method and demonstrate that it outperforms related methods by a significant margin.

연구 동기 및 목표

그래프가 없거나 불완전하거나 노이즈가 있을 때 GCN 매개변수와 함께 그래프 구조 학습을 동시 수행하는 것을 동기화한다.
외부 문제는 에지 확률을 학습하고 내부 문제는 GCN 가중치를 학습하는 이층 최적화 프레임워크를 개발한다.
이산 그래프 변수들을 처리하기 위해 직-through 추정기가 있는 하이퍼그래디언트 강하법을 사용하여 실용적인 알고리즘을 제시한다.
학습된 희소 그래프가 전통적인 그래프 구성 방식보다 성능이 좋고 모델이 의미 있는 엣지 분포를 산출한다는 것을 입증한다.

제안 방법

엣지를 theta 매개변수를 가진 독립적인 베르누이 확률 변수로 모델링하고 A ~ Ber(theta)로 샘플링하여 그래프 분포를 형성한다.
바깥 목표는 검증 손실 F(w_theta, A)를 최소화하도록 하고 w_theta = argmin_w E_A~Ber(theta)[L(w, A)]로 두고, 안쪽 목표는 샘플링된 그래프들에 대해 훈련 손실을 최소화한다.
A_t ~ Ber(theta)일 때 w에 대해 SGD로 내부 및 외부 목표를 근사하고 시간에 따른 잘려진 역전파를 통해 theta에 대한 STE 기반 하이퍼그래디언트를 계산한다.
직-through 추정기를 사용하여 이산 엣지에 대한 그래디언트를 근사하고 편향되었지만 실용적으로 효과적인 하이퍼그래디언트를 얻는다.
모델의 최종 예측을 S개의 샘플 그래프에 대한 몬테카를로 평균으로 추정한다: f_w^{exp}(X) ≈ E_A[f_w(X, A)], 비편향 추정기는 hat{f}_w(X) = (1/S) sum_i f_w(X, A_i)이다.
theta를 kNN 그래프로 초기화하고(초기화는 알려진 엣지를 반영하기 위해 0/1로 설정) 인접 행렬의 볼록합(convex hull) 내에서 theta를 최적화한다.

실험 결과

연구 질문

RQ1그래프가 없거나 손상되었을 때 GCN 매개변수와 함께 학습된 확률 그래프 생성기가 준감독 노드 분류를 개선할 수 있는가?
RQ2학습된 엣지 분포가 같은 클래스를 가진 노드 간의 엣지에 더 높은 확률을 두는 경향이 있으며, 그 결과 그래프가 희소하지만 정보가 풍부한가?
RQ3직-through 하이퍼그래디언트를 이용한 이층 및 그래디언트 기반 최적화가 실제로 이산 그래프 구조에 효과적인가?
RQ4다 varying 그래프 불완전성 하에서 LDS는 전통적인 GCN 및 다른 베이스라인에 비해 어떤 성능을 보이는가?

주요 결과

LDS는 일반 GCN과 비교해 경쟁력 있거나 우수한 정확도를 달성하며, 특히 엣지를 제거할수록 정확도 상승이 나타나며 일부 설정에서 수십 퍼센트 포인트까지의 이득이 있다.
학습된 그래프는 여전히 희소하고(전체 그래프보다 훨씬 작음) 더 정보가 풍부해져 같은 클래스 노드 쌍 간의 엣지 확률이 증가한다.
다수의 데이터셋에서 kNN 기반 그래프 방법과 심지어 조밀한 인접 학습보다 LDS가 우수한 성능을 보이며, 특히 실제 그래프 구조가 있는 경우 더 두드러진다.
교대적 접근을 넘어서 잘려진 STE 하이퍼그래디언트(tau > 0)를 사용하는 것이 단일 단계 혹은 순수 교대 최적화보다 더 나은 성능을 낸다.
학습된 엣지 확률은 같은 클래스 노드를 연결하는 엣지에 대한 더 높은 확률로 의미 있는 구조를 드러내고, 참 인접 관계의 부분적 회복을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.