[논문 리뷰] Towards Automated Circuit Discovery for Mechanistic Interpretability
이 논문은 기계적 해석 가능성의 체계적 해석 워크플로우를 체계화하고 Automatic Circuit DisCovery (ACDC)를 도입하여 모델 동작을 구현하는 서브그래프(회로)를 식별하는 작업을 자동화하고, 기존 방법과 비교하며 ROC/AUC 분석을 통해 검증합니다.
Through considerable effort and intuition, several recent works have reverse-engineered nontrivial behaviors of transformer models. This paper systematizes the mechanistic interpretability process they followed. First, researchers choose a metric and dataset that elicit the desired model behavior. Then, they apply activation patching to find which abstract neural network units are involved in the behavior. By varying the dataset, metric, and units under investigation, researchers can understand the functionality of each component. We automate one of the process' steps: to identify the circuit that implements the specified behavior in the model's computational graph. We propose several algorithms and reproduce previous interpretability results to validate them. For example, the ACDC algorithm rediscovered 5/5 of the component types in a circuit in GPT-2 Small that computes the Greater-Than operation. ACDC selected 68 of the 32,000 edges in GPT-2 Small, all of which were manually found by previous work. Our code is available at https://github.com/ArthurConmy/Automatic-Circuit-Discovery.
연구 동기 및 목표
- 언어 모델에서 회로를 식별하기 위한 기계적 해석 가능성의 표준 워크플로우를 체계화한다.
- ACDC 알고리즘으로 엣지 수준의 회로 추출 단계를 자동화한다.
- 회로 발견을 위한 Subnetwork Probing (SP) 및 Pruning용 Head Importance Score (HISP)을 적응시키고 비교한다.
- 회로 추출 성공을 평가하기 위한 정량적 지표를 제공하고 알려진 회로 과제에 대한 실험으로 검증한다.
제안 방법
- 세 단계의 기계적 해석 가능성 워크플로우를 정의한다: 행동 선택, 계산 그래프 세분성 정의, 회로를 추출하기 위한 활성화 패치를 수행한다.
- KL 발산 기반 지표를 사용하여 출력에서 시작해 입력으로 이동하는 활성화 패치를 통해 엣지를 가지치기하기 위해 Automatic Circuit DisCovery (ACDC)를 도입한다.
- 동일한 작업 중심 프레임워크 하에서 서브네트워크를 복구하기 위해 SP 및 HISP 기법을 적응시킨다.
- 전체 모델과 서브그래프 출력 간의 KL 발산을 주요 평가 지표로 사용하고, 프롬프트 데이터 세트와 그 손상 버전의 평균을 낸다.
- ACDC의 오픈 소스 구현을 커뮤니티 사용을 위해 제공한다.

실험 결과
연구 질문
- RQ1자동 패칭으로 주어진 동작을 구현하는 서브그래프(회로)를 트랜스포머 모델에서 식별할 수 있는가?
- RQ2자동 회로 발견이 알려진 회로 또는 동작을 회복하는 데 있어 기존 방법(SP 및 HISP)과 어떻게 비교되는가?
- RQ3회복된 회로의 품질을 가장 잘 정량화하는 지표는 무엇이며 회로 희소성와 어떤 트레이드오프가 있는가?
- RQ4발견된 회로는 다양한 데이터 손상 및 작업 정의에 대해 로버스트한가?
- RQ5자동화가 더 큰 모델과 더 복잡한 동작으로 얼마나 확장될 수 있는가?
주요 결과
- ACDC는 테스트된 회로에서 5/5 구성 요소 유형을 회복하는 것으로 입증된 희소한 엣지 집합을 선택하여 GPT-2 Small Greater-Than 유사 작업의 회로를 회복할 수 있다.
- ACDC는 특정 실험에서 GPT-2 Small에서 검토된 32,000 엣지 중 68개의 엣지를 가지치기하여 수동으로 이전에 식별된 엣지와 일치한다.
- ACDC는 여러 트랜스포머 작업에서 회로 식별에 있어 기울기 하강법 기반 방법과 경쟁력 있는 성능을 달성하지만 로버스트성과 엣지 완전성은 작업 및 지표에 따라 다르다.
- SP 및 HISP와 비교했을 때 ACDC는 일반적으로 여러 작업(IOI, Greater-Than, tracr-reverse)에서 우수한 성능을 보이나 손상 분포와 하이퍼파라미터에 민감하다.
- 독립적으로 시행한 induction-task 평가에서 ACDC는 KL 발산과 회로 크기(엣지 수 적음) 사이의 더 나은 트레이드오프를 제공하는 경향이 있지만, 모든 방법은 워크플로우의 3단계를 완전히 자동화하는 데에 한계를 보인다.
- 제로 활성화 패칭은 토이 모델 회로를 완전히 회복할 수 있어 특정 조건에서 자동 회로 발견의 일반화 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.