Skip to main content
QUICK REVIEW

[논문 리뷰] DiGress: Discrete Denoising diffusion for graph generation

Clément Vignac, Igor Krawczuk|arXiv (Cornell University)|2022. 09. 29.
Advanced Graph Neural Networks인용 수 70
한 줄 요약

DiGress는 그래프의 이산적 denoising 확산 모델을 도입하여 범주형 노드 및 간선 속성을 사용하고, 그래프 트랜스포머를 통해 Markovian discrete diffusion을 역으로 수행하면서 희소성을 보존합니다. 분자 및 비분자 그래프에서 최첨단 성과를 달성하고 대규모 데이터세트로 확장됩니다.

ABSTRACT

This work introduces DiGress, a discrete denoising diffusion model for generating graphs with categorical node and edge attributes. Our model utilizes a discrete diffusion process that progressively edits graphs with noise, through the process of adding or removing edges and changing the categories. A graph transformer network is trained to revert this process, simplifying the problem of distribution learning over graphs into a sequence of node and edge classification tasks. We further improve sample quality by introducing a Markovian noise model that preserves the marginal distribution of node and edge types during diffusion, and by incorporating auxiliary graph-theoretic features. A procedure for conditioning the generation on graph-level features is also proposed. DiGress achieves state-of-the-art performance on molecular and non-molecular datasets, with up to 3x validity improvement on a planar graph dataset. It is also the first model to scale to the large GuacaMol dataset containing 1.3M drug-like molecules without the use of molecule-specific representations.

연구 동기 및 목표

  • 희소성과 구조를 보존하기 위해 이산 확산으로 그래프 생성을 촉진한다.
  • 이산 노드/간선 범주에서 작동하는 확산 과정을 개발한다.
  • 노이즈가 있는 그래프에서 깨끗한 그래프를 복원하고 노이즈를 제거하기 위해 그래프 트랜스포머를 학습한다.
  • 데이터 주변 분포를 보존하는 마진널 노이즈 모델과 보조 특징으로 성능을 향상시킨다.
  • 이산적 가이던스와 보조 특징을 통해 조건부 그래프 생성을 가능하게 한다.

제안 방법

  • 노드 및 간선 카테고리에 대해 Markov 전이 행렬 Q^t_X 및 Q^t_E로 이산 확산을 정의한다.
  • q(G^t|G^{t-1})에서 노드/간선 타입을 샘플링하여 G^t를 확산시키고 (X^{t-1} Q^t_X, E^{t-1} Q^t_E)로 표현하며 무방향 그래프에 대해 대칭화한다.
  • 노드/간선 분포를 예측하도록 순열-등가(permutation-equivariant) 그래프 트랜스포머 phi_theta를 학습시키고 교차 엔트로피 손실 l = ∑_i CE(x_i, p_i^X) + λ ∑_{i,j} CE(e_{ij}, p_{ij}^E)를 최소화한다.
  • 역 확산 p_theta(G^{t-1}|G^t)를 노드와 간선을 곱의 형태로 모델링하고, 이산 예측을 주변화하여 p_theta(x_i^{t-1}|G^t) 및 p_theta(e_{ij}^{t-1}|G^t)를 얻는다.
  • 데이터 주변 분포와 일치하는 마진널 노이즈 프라이어 q_X, q_E로 학습을 개선하고 입력에 구조적/스펙트럴 특징을 보강한다.
  • 목표 특성으로 샘플링을 유도하기 위해 특성 회귀기 g_eta를 통한 이산 가이던스를 도입한다.

실험 결과

연구 질문

  • RQ1그래프 속성에 대한 이산 확산이 희소성을 보존하면서 복잡한 그래프 분포를 효과적으로 모델링할 수 있는가?
  • RQ2마진널 확률을 보존하는 노이즈 모델이 그래프에 대한 확산 학습과 샘플 품질을 향상시키는가?
  • RQ3구조적/스펙트럴 특징 등 어떤 아키텍처와 특징 보강이 그래프 노이즈 제거 성능을 향상시키는가?
  • RQ4DiGress가 이산 가이던스와 그래프 수준 특성으로 조건부 그래프 생성을 지원할 수 있는가?
  • RQ5자기회귀 모델 및 다른 원샷 모델과 비교하여 DiGress가 대규모 분자 데이터세트에 어떻게 확장되는가?

주요 결과

차수군집성궤도V.U.N.
6.91.73.15%
1.41.21.775%
  • DiGress는 분자 및 비분자 그래프 생성 벤치마크에서 최첨단 성능을 달성한다.
  • 평면 그래프에서 DiGress는 기준 대비 최대 3배 더 높은 유효성을 달성한다.
  • DiGress는 분자 특화 표현 없이 GuacaMol(1.3M 분자)에 확장된 최초의 원샷 그래프 모델이다.
  • 마진널 전이 노이즈를 사용하면 균일 노이즈보다 확산 학습과 샘플 품질이 향상된다.
  • QM9 조건화 실험에서 이산 가이던스가 목표 특성의 평균 절대 오차를 감소시킨다.
  • DiGress는 대형 MOSES에서 자기회귀 모델과 동등한 성능 및 GuacaMol에서 경쟁 지표를 보여 확장성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.