Skip to main content
QUICK REVIEW

[논문 리뷰] Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations

Atticus Geiger, Zhengxuan Wu|arXiv (Cornell University)|2023. 03. 05.
Explainable Artificial Intelligence (XAI)인용 수 9
한 줄 요약

논문은 Distributed Alignment Search (DAS)를 소개합니다. 이는 분산된 상호 교환 개입(distributed interchange interventions)을 사용하여 분산 뉴럴 표현과 고수준 인과 모델을 정렬하는 gradient 기반 방법으로, 계층적 동일성 및 NLI 작업에서 교환 개입 정확도(IIA)를 완벽하거나 거의 완벽하게 달성합니다.

ABSTRACT

Causal abstraction is a promising theoretical framework for explainable artificial intelligence that defines when an interpretable high-level causal model is a faithful simplification of a low-level deep learning system. However, existing causal abstraction methods have two major limitations: they require a brute-force search over alignments between the high-level model and the low-level one, and they presuppose that variables in the high-level model will align with disjoint sets of neurons in the low-level one. In this paper, we present distributed alignment search (DAS), which overcomes these limitations. In DAS, we find the alignment between high-level and low-level models using gradient descent rather than conducting a brute-force search, and we allow individual neurons to play multiple distinct roles by analyzing representations in non-standard bases-distributed representations. Our experiments show that DAS can discover internal structure that prior approaches miss. Overall, DAS removes previous obstacles to conducting causal abstraction analyses and allows us to find conceptual structure in trained neural nets.

연구 동기 및 목표

  • 신경망을 설명하기 위한 인과 추상화의 동기 부여 및 형식화.
  • 그라디언트 기반 최적화를 사용하여 brute-force 정렬 탐색을 극복.
  • 분산 표현을 허용함으로써 로컬리스트, 분리된 뉴런-변수 매핑의 가정을 완화.
  • 고수준 해결책이 명확한 작업들(hierarchical equality, NLI)에서 DAS를 시연.
  • DAS를 brute-force 로컬리스트 탐색과 비교하고 분산 표현의 분해를 분석.

제안 방법

  • 고수준 모델과 저수준 네트워크에 대한 Constructive causal abstraction 및 interchange interventions (II) 정의.
  • 비표준 기저로 표현을 회전시키고, 기본 입력을 보존하며, 회전된 구성요소를 사용해 패치하는 분산 교환 개입(DII)을 도입.
  • 직교 회전을 미분 가능 매개변수 행렬로 매개화하고, gradient descent를 통해 교환 개입 정확도(IIA)를 최대화하도록 최적화.
  • Distributed Alignment Search (DAS)를 학습하여 고수준 변수와 회전된 저수준 부분공간 간의 부분공간 정렬을 공식화.
  • 고수준 출력과 회전된 저수준 출력 간의 교차 엔트로피를 최적화 목적 함수로 사용.
  • 브루트포스 로컬리스트 정렬과 비교하고 학습된 분산 표현이 입력 아이덴티티로 분해되는지 분석.
Figure 5: Rotation measured in degree(s) of eigenvectors of the learned rotation matrix for each task.
Figure 5: Rotation measured in degree(s) of eigenvectors of the learned rotation matrix for each task.

실험 결과

연구 질문

  • RQ1학습된 분산 표현 아래에서 고수준 인과 모델이 저수준 신경망에 충실히 정렬될 수 있는가?
  • RQ2분산(비지역) 뉴런-변수 매핑을 허용하는 것이 로컬리스트 정렬에 비해 추상화 정확도를 개선하는가?
  • RQ3학습된 분산 표현은 추상 관계를 얼마나 반영하는가, 아니면 분해 가능한 입력 아이덴티티를 반영하는가?
  • RQ4DAS는 상징적 해결책이 명확한 작업(hierarchical equality)과 의미 기반 작업(NLI)에서 어떻게 수행되는가?

주요 결과

  • DAS는 로컬리스트 방식이 놓치는 내부 구조를 발견하고 brute-force 로컬리스트 검색보다 더 높은 교환 개입 정확도를 달성한다.
  • 계층적 동일성에서, DAS는 여러 설정에서 완벽하거나 거의 완벽한 정렬(높은 IIA)을 달성, brute-force 및 로컬리스트 기준선보다 우수.
  • 자연어 추론(NLI) 작업에서, DAS는 entailment 관계를 포함하는 인과 모델에 완벽한 정렬을 찾아, 표현이 순수한 관계가 아니라 데이터 구조를 인코딩하는지 여부를 드러낸다.
  • NLI의 경우, entailment 표현은 분리 가능한 entailment 구성요소가 아니라 두 단어-아이덴티티 표현으로 분해되어, 사례별 추상화 동작을 보여준다.
  • 무작위 네트워크 실험은 큰 은닉 표현이 잘못된 조작 가능성을 만들어낼 수 있음을 보여주며, 분산된 원칙적 정렬의 필요성을 강조한다.
  • DAS는 분산 표현이 학습된 네트워크에서 상징적이고 트리 구조의 알고리즘을 충실하게 구현할 수 있음을 입증한다.
Figure 6: Accuracy over training epochs of the high-level model abstracting both equality relations for hierarchical equality experiment.
Figure 6: Accuracy over training epochs of the high-level model abstracting both equality relations for hierarchical equality experiment.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.