Skip to main content
QUICK REVIEW

[논문 리뷰] Transcoders Find Interpretable LLM Feature Circuits

Jacob Dunefsky, Philippe Chlenski|arXiv (Cornell University)|2024. 06. 17.
Natural Language Processing Techniques인용 수 6
한 줄 요약

본 논문은 wide, sparsely-activating approximations of MLP sublayers를 통해 신뢰도를 유지하면서 해석 가능한 회로 분석을 가능하게 하는 transcoders를 제시하고, 여러 모델 규모에 걸쳐 sparse autoencoders (SAEs)보다 희소성, 충실도, 인간 해석 가능성 측면에서 우수함을 보여준다.

ABSTRACT

A key goal in mechanistic interpretability is circuit analysis: finding sparse subgraphs of models corresponding to specific behaviors or capabilities. However, MLP sublayers make fine-grained circuit analysis on transformer-based language models difficult. In particular, interpretable features -- such as those found by sparse autoencoders (SAEs) -- are typically linear combinations of extremely many neurons, each with its own nonlinearity to account for. Circuit analysis in this setting thus either yields intractably large circuits or fails to disentangle local and global behavior. To address this we explore transcoders, which seek to faithfully approximate a densely activating MLP layer with a wider, sparsely-activating MLP layer. We introduce a novel method for using transcoders to perform weights-based circuit analysis through MLP sublayers. The resulting circuits neatly factorize into input-dependent and input-invariant terms. We then successfully train transcoders on language models with 120M, 410M, and 1.4B parameters, and find them to perform at least on par with SAEs in terms of sparsity, faithfulness, and human-interpretability. Finally, we apply transcoders to reverse-engineer unknown circuits in the model, and we obtain novel insights regarding the "greater-than circuit" in GPT2-small. Our results suggest that transcoders can prove effective in decomposing model computations involving MLPs into interpretable circuits. Code is available at https://github.com/jacobdunefsky/transcoder_circuits/.

연구 동기 및 목표

  • 트랜스포머 MLP 서브레이어의 미세한 기계적 해석 가능성을 동기화하고 실현한다.
  • 원래 계산과의 충실도를 유지하면서 MLP 출력의 희소한 근사치를 생성하는 transcoders를 개발한다.
  • 트랜스coder 기반 회로가 입력 의존성 기여와 입력 불변 기여를 분리한다는 것을 보여준다.
  • transcoder 기반 회로 분석이 새로운 방법을 지원하고 알려지지 않은 모델 회로를 역설계하는 데 기여한다.
  • 여러 모델 규모에 걸친 도구 및 실증적 근거를 제공한다.

제안 방법

  • transcoder를 한 개의 은닉층을 가진 넓은 ReLU MLP로 정의하고, MLP 서브레이어의 출력을 근사하기 위해 특징 벡터의 희소 선형 조합을 학습한다.
  • 활성화에 대한 L1 희소성 페널티와 원래 MLP 서브레이어의 출력과 일치시키는 충실도 손실을 사용해 transcoders를 학습한다.
  • GPT2-small, Pythia-410M, Pythia-1.4B에서 해석가능성, 희소성, 충실도 측면에서 transcoders를 SAEs와 비교한다.
  • transcoder 연결을 이용해 속성(기여도)을 입력 의존 항과 입력 불변 항으로 분해하는 회로 분석 방법을 개발한다.
  • 입력 불변 동작을 요약하기 위한 de-embedding을 도입하고, 특징을 역설계하기 위한 블라인드 사례 연구를 수행한다.
  • 이 접근법을 GPT2-small greater-than 회로 및 다른 작업에 적용한다.
Transcoders Find Interpretable LLM Feature Circuits

실험 결과

연구 질문

  • RQ1다양한 모델 규모에서 transcoders가 충실하면서도 희소한 MLP 서브레이어의 근사를 제공할 수 있는가?
  • RQ2transcoder 특징이 SAEs와 비슷하거나 더 나은 해석 가능한 패턴을 만들어내는가?
  • RQ3transcoder 기반 회로 분석이 입력 의존 정보와 입력 불변 정보를 분리할 수 있는가?
  • RQ4알려진 회로(예: GPT2-small greater-than 회로)에 대해 transcoder 분석을 통해 얻을 수 있는 새로운 통찰은 무엇인가?

주요 결과

  • Transcoders는 1.4B 매개변수까지의 모델에서 SAEs보다 동등하거나 더 나은 희소성-충실도 트레이드오프를 달성한다.
  • Transcoder 특징의 질적 인간 해석 가능성은 SAEs에 비해 비슷하며, 일부 특징은 맥락 독립적이라 평가된다.
  • 희소성-정확도 파레토 프런트에서 transcoders가 자주 SAEs를 능가하며 더 큰 모델에서 간격이 커진다.
  • transcoder를 이용한 새로운 회로 분석 방법이 특징 간 간선에서 입력 불변 기여와 입력 의존 기여로 인한 분해를 산출한다.
  • 실제 트리거 프롬프트를 보지 않고도 역설계 가능성을 입증하는 블라인드 케이스 연구가 있다.
  • GPT2-small에서 transcoder 분석은 이전 뉴런 분석과 일치하는 greater-than 회로에 대한 통찰을 제공하는 한편, 희소하고 해석 가능한 특징 집합을 강조한다.
Transcoders Find Interpretable LLM Feature Circuits

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.