Skip to main content
QUICK REVIEW

[논문 리뷰] Transformer Is Inherently a Causal Learner

Xinyue Wang, Stephen Wang|arXiv (Cornell University)|2026. 01. 09.
Time Series Analysis and Forecasting인용 수 0
한 줄 요약

Decoder-only 트랜스포머가 자체 회귀 예측을 위해 학습된 상태에서 명시적 인과 목표 없이도 데이터로부터 실제 시차 인과 그래프를 누적 그래디언트 기여를 통해 복원할 수 있다.

ABSTRACT

We reveal that transformers trained in an autoregressive manner naturally encode time-delayed causal structures in their learned representations. When predicting future values in multivariate time series, the gradient sensitivities of transformer outputs with respect to past inputs directly recover the underlying causal graph, without any explicit causal objectives or structural constraints. We prove this connection theoretically under standard identifiability conditions and develop a practical extraction method using aggregated gradient attributions. On challenging cases such as nonlinear dynamics, long-term dependencies, and non-stationary systems, this approach greatly surpasses the performance of state-of-the-art discovery algorithms, especially as data heterogeneity increases, exhibiting scaling potential where causal accuracy improves with data volume and heterogeneity, a property traditional methods lack. This unifying view lays the groundwork for a future paradigm where causal discovery operates through the lens of foundation models, and foundation models gain interpretability and enhancement through the lens of causality.

연구 동기 및 목표

  • 고차원, 비선형, 비정상 시계열 설정에서 인과 발견을 동기부여한다.
  • 예측을 위한 디코더-전용 트랜스포머가 표준 식별 가능성 가정하에서 시차 인과 구조를 식별함을 보인다.
  • Layer-wise Relevance Propagation (LRP)를 사용한 실용적 그래디언트-에너지 리드아웃을 제안하여 인과 그래프를 추출한다.
  • 비선형, 장거리 및 이질적 동역학에서 접근법의 확장성 및 강건성을 시연한다.
  • 이로써 확장가능한 인과 발견과 해석가능성을 위한 기반 모델 주도 패러다임의 가능성을 논의한다.

제안 방법

  • L의 지연 윈도우와 직접적 인과 부모 Pa(i,t)로 p-변량 시계열 모델링.
  • 자기회귀 마스킹으로 X_t를 X_{t-1},…,X_{t-L}에서 예측하도록 디코더-전용 트랜스포머를 학습한다.
  • 그래디언트-에너지 기반 기여 H_{j,i}^{\ell} 혹은 가우시안 특수화 G_{j,i}^{\ell}를 계산하여 지연 \u000bell에서의 엣지 j -> i를 식별한다.
  • G를 축적된 Layer-wise Relevance Propagation (LRP) 리드아웃 ϟR_{ij}^{(\u000bell)}로 근사하고 이진화를 통해 희소 그래프로 클램프한다.
  • 목표 대상당 Top-k 또는 균일 임계값 규칙으로 엣지를 이진화하여 인과 그래프를 얻는다.
  • 깊은 트랜스포머에서 토큰 혼합으로 인해 원시 어텐션 대신 그래디언트를 사용하는 것을 정당화한다.
Figure 1: Data generation and transformer-based causal discovery. Left: A decoder-only transformer trained for next-step prediction. Tokens are lagged observations from $t\!-\!L$ to $t\!-\!1$ ; the model predicts $X_{t}$ from $X_{t-1:t-L}$ . Right: A lagged data-generating process with $N\!=\!3$ and
Figure 1: Data generation and transformer-based causal discovery. Left: A decoder-only transformer trained for next-step prediction. Tokens are lagged observations from $t\!-\!L$ to $t\!-\!1$ ; the model predicts $X_{t}$ from $X_{t-1:t-L}$ . Right: A lagged data-generating process with $N\!=\!3$ and

실험 결과

연구 질문

  • RQ1시계열 데이터에서 표준 식별 가능성 가정(A1–A4) 하에 예측을 위해 학습된 디코더-전용 트랜스포머가 진짜 시차 인과 그래프를 식별할 수 있는가?
  • RQ2LRP를 통한 그래디언트 기반 기여가 주목(attention) 기반이나 전통적 방법보다 비선형, 장거리 및 비정상 역학에서 인과 구조를 더 신뢰성 있게 복원하는가?
  • RQ3데이터 양, 이질성, 모델 깊이가 이 프레임워크의 인과 발견 성능에 어떤 영향을 미치는가?
  • RQ4잠재적 교란변수나 순간적 효과가 있을 때 학습된 시차 인과 구조를 강화하거나 정제할 수 있는가?
  • RQ5도메인 지표, 후처리 파이프라인 등 어떤 실용적 전략이 트랜스포머를 활용한 인과 발견의 데이터 효율성과 견고성을 높이는가?

주요 결과

  • 그래디언트를 통한 디코딩은 A1–A4 및 정규성 조건하에서 시차 인과 부모의 고유 식별성을 제공합니다.
  • LRP를 통한 그래디언트-에너지 리드아웃은 실제 인과 그래프를 효과적으로 복원하고 비선형, 고차원, 장거리 환경에서 기준 방법을 능가합니다.
  • 트랜스포머 기반 발견은 더 많은 데이터로 성능이 향상되며 데이터 이질성 확장에 따라 확장되며 도전적인 규칙에서 최첨단 방법을 능가합니다.
  • 맥락화된 어텐션은 고정된 정적 마스크 없이도 단일 모델 내에서 다중 동적 의존성을 포착할 수 있게 합니다.
  • 잠재적 교란변수나 순간적 효과에서 비롯된 문제를 완화하기 위해 잠재적 인식 또는 도메인 강화된 후처리 단계가 강건성을 개선합니다.
  • 더 깊은 트랜스포머와 그래디언트 기반 리드아웃이 얕은 변형이나 어텐션 기반 설명보다 더 정확한 인과 구조를 산출합니다.
Figure 2: F1 score analysis across regimes. (A) Mean F1 across all experiments (averages exclude timeout cases). (B) High-dimensional input: F1 averaged across scales and seeds vs. the number of nodes. (C) Long-range dependencies: F1 averaged across scales and seeds vs. maximum lag. (D) Nonlinearity
Figure 2: F1 score analysis across regimes. (A) Mean F1 across all experiments (averages exclude timeout cases). (B) High-dimensional input: F1 averaged across scales and seeds vs. the number of nodes. (C) Long-range dependencies: F1 averaged across scales and seeds vs. maximum lag. (D) Nonlinearity

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.