QUICK REVIEW

[논문 리뷰] Learning Sparse Nonparametric DAGs

Xun Zheng, Dan Chen|arXiv (Cornell University)|2019. 09. 29.

Bayesian Modeling and Causal Inference참고 문헌 64인용 수 23

한 줄 요약

이 논문은 구조적 방정식 모델(SEM)에 대한 부분 도함수를 사용하여 비선형성 및 비모수적 모델로의 일반화를 통해 비모수적 방향 비순환 그래프(DAG)를 학습하기 위한 일반적이고 미분 가능한 최적화 프레임워크를 제안한다. 이 방법은 표준 최적화 솔버를 사용한 엔드 투 엔드 학습을 가능하게 하며, 특수 알고리즘 또는 모델 전용 구현 없이도 비선형 및 비모수적 모델에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

We develop a framework for learning sparse nonparametric directed acyclic graphs (DAGs) from data. Our approach is based on a recent algebraic characterization of DAGs that led to a fully continuous program for score-based learning of DAG models parametrized by a linear structural equation model (SEM). We extend this algebraic characterization to nonparametric SEM by leveraging nonparametric sparsity based on partial derivatives, resulting in a continuous optimization problem that can be applied to a variety of nonparametric and semiparametric models including GLMs, additive noise models, and index models as special cases. Unlike existing approaches that require specific modeling choices, loss functions, or algorithms, we present a completely general framework that can be applied to general nonlinear models (e.g. without additive noise), general differentiable loss functions, and generic black-box optimization routines. The code is available at https://github.com/xunzheng/notears.

연구 동기 및 목표

각 모델 유형에 맞는 전용 알고리즘을 피하는 점수 기반 DAG 학습을 위한 일반적이고 모델에 종속되지 않는 프레임워크 개발.
이전에 선형 SEM에 국한되어 있던 순환성 제약의 연속 최적화 공식화를 일반 비모수적 및 반모수적 모델으로 확장.
비모수적 DAG 학습 문제를 매끄럽고 미분 가능한 프로그램으로 재정의함으로써 표준 최적화 루틴(L-BFGS-B 등)의 사용을 가능하게.
다양한 모델, 예를 들어 덧셈 모델, 인덱스 모델, 신경망, 직교 기저 전개 등에서 프레임워크의 효과성을 입증.
모델 전용 또는 알고리즘 전용 튜닝 없이도 시장에서 유통되는 솔버가 경쟁 가능한 성능을 달성할 수 있음을 보여줌.

제안 방법

구조 함수의 야코비안 행렬의 행렬 지수의 트레이스를 통해 비모수적 SEM에 대한 순환성 제약 조건을 일반화.
구조 함수의 부분 도함수를 사용하여 비모수적 모델에서 순환성을 강제하는 연속적이고 미분 가능한 페널티를 정의.
다층 퍼셉트론(MLP) 및 소볼레프 유형의 직교 기저 전개와 같은 탄력적인 가족을 사용해 구조 함수를 매개변수화.
표준 비선형 솔버로 해결 가능한, 미분 가능한 순환성 페널티를 포함하는 제약 최적화 문제로 DAG 학습 문제를 재정의.
스pars티 및 성능 향상을 위해 이웃 선택 및 엣지 제거를 전처리/후처리 단계로 통합.
PyTorch를 사용해 프레임워크를 구현하여 엔드 투 엔드 백프로파게이션과 딥러닝 툴킷과의 호환성 확보.

실험 결과

연구 질문

RQ1DAG 학습에서 순환성 제약 조건을 선형 모델을 초월해 임의의 비모수적 구조적 방정식 모델로 일반화할 수 있는가?
RQ2모델 전용 알고리즘 없이도 비모수적, 반모수적, 모수적 모델 전반에 걸쳐 DAG를 학습할 수 있는 통합 최적화 프레임워크를 사용할 수 있는가?
RQ3순환성의 미분 가능하고 연속적인 공식화가 비선형 및 비모수적 데이터에서 시장에서 유통되는 솔버로도 경쟁 가능한 성능을 달성할 수 있는가?
RQ4기존 최신 기술 수준의 방법들과 비교해 실제 생물학적 데이터에서 이 프레임워크는 어떤 성능을 보이는가?
RQ5비모수적 DAG 학습에서 모델 용량(예: 은닉 유닛 수)이 성능 및 일반화에 어떤 영향을 미치는가?

주요 결과

실제 Sachs 데이터셋(13개 엣지)에서 제안된 프레임워크는 SHD 16을 달성하여 NOTEARS(SHD 22)와 GNN(SHD 19)를 능가한다.
d=20, n=200인 덧셈 GP 및 GP 설정에서 엣지 제거 및 이웃 선택을 적용한 방법(NOTEARS-MLP++)는 SHD 1.2를 기록하며 CAM과 동일하거나 이를 초월한다.
d=20, n=1000인 덧셈 GP 모델에서 은닉 유닛 수를 0에서 20으로 증가시키면 SHD가 향상되나, 더 이상 100으로 늘리면 샘플 수가 제한된 상황에서 과적합으로 인해 성능이 악화된다.
Sachs 데이터셋에서 11개의 공통 엣지 중 7개를 성공적으로 복원하였으며, 기존 방법들이 발견하지 못한 3개의 엣지도 복원: mek→erk, PIP3→PLCg, PKC→mek.
로컬 서치 방법이 한 번에 한 개의 엣지만 업데이트하는 데 반해, 이 프레임워크는 기울기 기반 최적화를 통해 모든 엣지를 동시에 효율적이고 글로벌하게 업데이트할 수 있다.
이 방법은 모델 선택에 대해 강건하다: MLP, 소볼레프 기저 전개, 다양한 손실 함수와 모두 호환되며, 전처리(PNS) 및 후처리(엣지 제거)와도 조합 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.