[논문 리뷰] Causal Discovery with Reinforcement Learning
본 논문은 신경 인코더-디코더(트랜스포머 유사)를 사용하여 DAG를 생성하고, 사이클 불가 제약 하에서 점수 기반 보상을 최대화하는 그래프를 탐색하기 위해 강화 학습을 활용하여 DAG 발견을 개선하며, 유연한 점수 함수와 유한 샘플에서의 탐색 성능을 향상시킨다.
Discovering causal structure among a set of variables is a fundamental problem in many empirical sciences. Traditional score-based casual discovery methods rely on various local heuristics to search for a Directed Acyclic Graph (DAG) according to a predefined score function. While these methods, e.g., greedy equivalence search, may have attractive results with infinite samples and certain model assumptions, they are usually less satisfactory in practice due to finite data and possible violation of assumptions. Motivated by recent advances in neural combinatorial optimization, we propose to use Reinforcement Learning (RL) to search for the DAG with the best scoring. Our encoder-decoder model takes observable data as input and generates graph adjacency matrices that are used to compute rewards. The reward incorporates both the predefined score function and two penalty terms for enforcing acyclicity. In contrast with typical RL applications where the goal is to learn a policy, we use RL as a search strategy and our final output would be the graph, among all graphs generated during training, that achieves the best reward. We conduct experiments on both synthetic and real datasets, and show that the proposed approach not only has an improved search ability but also allows a flexible score function under the acyclicity constraint.
연구 동기 및 목표
- 관찰 데이터에서 제어 실험이 불가능할 때 인과 구조 학습의 동기를 부여합니다.
- 사전에 정의된 점수를 최대화하도록 DAG를 탐색하기 위한 신경망 조합 최적화 접근법을 제안합니다.
- 패널티 항을 통해 사이클 비허용 제약을 통합하고 적절한 패널티 하에서 하드 사이클 비허용과의 등가를 보인다.
- 합성 및 실제 데이터 세트에서 전통적인 점수 기반 방법에 비해 탐색 효과와 유연성을 향상시킬 것을 보여준다.
제안 방법
- 인코더-디코더 네트워크가 관찰된 데이터의 무작위 부분집합으로부터 DAG의 이진 인접 행렬을 생성합니다.
- 인코더는 변수 간 상호 작용을 포착하기 위해 Transformer 스타일의 셀프 어텐션 인코더를 사용합니다.
- 디코더는 인코더 출력 간의 쌍 점수 g_ij를 계산하고 이를 Bernoulli 메커니즘으로 샘플링하여 인접 엔트리(i != j)를 형성합니다.
- 점수 기반 보상은 사전에 정의된 DAG 점수(BIC 등)와 사이클 비허용 패널티 h(A) 및 비 DAG 그래프에 대한 지시자를 결합합니다.
- 사이클 비허용은 h(A) = trace(exp(A)) - d와 DAG 출력을 보장하기 위한 추가 지시자 패널티를 사용하여 강제합니다.
- 정책 기울기 학습은 배우-평가자(actor-critic) 구조(REINFORCE with a critic)를 사용하여 네트워크가 기대 보상을 최대화하도록 학습합니다.
- 최종 그래프는 학습 중 관찰된 최다 점수의 DAG로 채택되며 거짓 양성을 줄이기 위해 가지치기가 가능할 수 있습니다.
실험 결과
연구 질문
- RQ1사이클 비허용 제약 하에서 점수 기반 목표를 최적화하기 위한 탐색 전략으로 강화 학습을 효과적으로 사용할 수 있는가?
- RQ2RL 기반 접근이 전통적 방법(GES, PC)보다 탐색을 개선하고 다양한 점수 함수(BIC) 및 회귀 모델을 사용할 수 있는 유연성을 제공하는가?
- RQ3선형-가우시안, LiNGAM, 및 비선형(제곱) 인과 모델에서 유한 샘플 하의 제안 방법의 성능은 어떠한가?
- RQ4대규모 그래프에서 사이클 비허용 패널티가 학습 효율성, DAG 품질 및 간선 희소성에 어떤 영향을 미치는가?
주요 결과
- RL-BIC 기반 점수(RL-BIC2)는 LiNGAM 및 선형-가우시안 설정에서 12-노드 실험에서 실제 인과 그래프를 회복한다.
- RL-BIC2는 일반적으로 전통적 방법(GES, PC) 및 일부 신경 네트워크 기반 기법보다 FDR, TPR 및 SHD 측면에서 더 우수하다.
- 대형 그래프(d=30)에서 LiNGAM 데이터와 함께 RL-BIC2는 경쟁력 있는 FDR과 높은 TPR을 달성하고 SHD는 대안과 동등하거나 더 나은 편이다.
- 비선형 3차식 모델의 경우 RL-BIC2가 매우 높은 TPR(약 0.98)과 매우 낮은 SHD를 달성하여 NOTEARS 변형, ICA-LiNGAM, CAM, DAG-GNN, GraN-DAG 등과 같은 여러 베이스라인보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.