QUICK REVIEW

[논문 리뷰] DiGress: Discrete Denoising diffusion for graph generation

Clément Vignac, Igor Krawczuk|arXiv (Cornell University)|2022. 09. 29.

Advanced Graph Neural Networks인용 수 70

한 줄 요약

DiGress는 그래프의 이산적 denoising 확산 모델을 도입하여 범주형 노드 및 간선 속성을 사용하고, 그래프 트랜스포머를 통해 Markovian discrete diffusion을 역으로 수행하면서 희소성을 보존합니다. 분자 및 비분자 그래프에서 최첨단 성과를 달성하고 대규모 데이터세트로 확장됩니다.

ABSTRACT

This work introduces DiGress, a discrete denoising diffusion model for generating graphs with categorical node and edge attributes. Our model utilizes a discrete diffusion process that progressively edits graphs with noise, through the process of adding or removing edges and changing the categories. A graph transformer network is trained to revert this process, simplifying the problem of distribution learning over graphs into a sequence of node and edge classification tasks. We further improve sample quality by introducing a Markovian noise model that preserves the marginal distribution of node and edge types during diffusion, and by incorporating auxiliary graph-theoretic features. A procedure for conditioning the generation on graph-level features is also proposed. DiGress achieves state-of-the-art performance on molecular and non-molecular datasets, with up to 3x validity improvement on a planar graph dataset. It is also the first model to scale to the large GuacaMol dataset containing 1.3M drug-like molecules without the use of molecule-specific representations.

연구 동기 및 목표

희소성과 구조를 보존하기 위해 이산 확산으로 그래프 생성을 촉진한다.
이산 노드/간선 범주에서 작동하는 확산 과정을 개발한다.
노이즈가 있는 그래프에서 깨끗한 그래프를 복원하고 노이즈를 제거하기 위해 그래프 트랜스포머를 학습한다.
데이터 주변 분포를 보존하는 마진널 노이즈 모델과 보조 특징으로 성능을 향상시킨다.
이산적 가이던스와 보조 특징을 통해 조건부 그래프 생성을 가능하게 한다.

제안 방법

노드 및 간선 카테고리에 대해 Markov 전이 행렬 Q^t_X 및 Q^t_E로 이산 확산을 정의한다.
q(G^t|G^{t-1})에서 노드/간선 타입을 샘플링하여 G^t를 확산시키고 (X^{t-1} Q^t_X, E^{t-1} Q^t_E)로 표현하며 무방향 그래프에 대해 대칭화한다.
노드/간선 분포를 예측하도록 순열-등가(permutation-equivariant) 그래프 트랜스포머 phi_theta를 학습시키고 교차 엔트로피 손실 l = ∑_i CE(x_i, p_i^X) + λ ∑_{i,j} CE(e_{ij}, p_{ij}^E)를 최소화한다.
역 확산 p_theta(G^{t-1}|G^t)를 노드와 간선을 곱의 형태로 모델링하고, 이산 예측을 주변화하여 p_theta(x_i^{t-1}|G^t) 및 p_theta(e_{ij}^{t-1}|G^t)를 얻는다.
데이터 주변 분포와 일치하는 마진널 노이즈 프라이어 q_X, q_E로 학습을 개선하고 입력에 구조적/스펙트럴 특징을 보강한다.
목표 특성으로 샘플링을 유도하기 위해 특성 회귀기 g_eta를 통한 이산 가이던스를 도입한다.

실험 결과

연구 질문

RQ1그래프 속성에 대한 이산 확산이 희소성을 보존하면서 복잡한 그래프 분포를 효과적으로 모델링할 수 있는가?
RQ2마진널 확률을 보존하는 노이즈 모델이 그래프에 대한 확산 학습과 샘플 품질을 향상시키는가?
RQ3구조적/스펙트럴 특징 등 어떤 아키텍처와 특징 보강이 그래프 노이즈 제거 성능을 향상시키는가?
RQ4DiGress가 이산 가이던스와 그래프 수준 특성으로 조건부 그래프 생성을 지원할 수 있는가?
RQ5자기회귀 모델 및 다른 원샷 모델과 비교하여 DiGress가 대규모 분자 데이터세트에 어떻게 확장되는가?

주요 결과

차수	군집성	궤도	V.U.N.
6.9	1.7	3.1	5%
1.4	1.2	1.7	75%

DiGress는 분자 및 비분자 그래프 생성 벤치마크에서 최첨단 성능을 달성한다.
평면 그래프에서 DiGress는 기준 대비 최대 3배 더 높은 유효성을 달성한다.
DiGress는 분자 특화 표현 없이 GuacaMol(1.3M 분자)에 확장된 최초의 원샷 그래프 모델이다.
마진널 전이 노이즈를 사용하면 균일 노이즈보다 확산 학습과 샘플 품질이 향상된다.
QM9 조건화 실험에서 이산 가이던스가 목표 특성의 평균 절대 오차를 감소시킨다.
DiGress는 대형 MOSES에서 자기회귀 모델과 동등한 성능 및 GuacaMol에서 경쟁 지표를 보여 확장성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.