[논문 리뷰] Locating and Editing Factual Associations in GPT
이 논문은 GPT에서 사실적 연관성이 중간 계층의 MLP 모듈에 저장되어 있음을 보여주고, 한 행의 중간 계층 MLP를 업데이트하여 새로운 사실을 삽입하는 Rank-One Model Editing (ROME) 방법을 제시한다. 이를 통해 일반화와 특이성을 갖춘 경쟁력 있는 편집 성능을 달성한다.
We analyze the storage and recall of factual associations in autoregressive transformer language models, finding evidence that these associations correspond to localized, directly-editable computations. We first develop a causal intervention for identifying neuron activations that are decisive in a model's factual predictions. This reveals a distinct set of steps in middle-layer feed-forward modules that mediate factual predictions while processing subject tokens. To test our hypothesis that these computations correspond to factual association recall, we modify feed-forward weights to update specific factual associations using Rank-One Model Editing (ROME). We find that ROME is effective on a standard zero-shot relation extraction (zsRE) model-editing task, comparable to existing methods. To perform a more sensitive evaluation, we also evaluate ROME on a new dataset of counterfactual assertions, on which it simultaneously maintains both specificity and generalization, whereas other methods sacrifice one or another. Our results confirm an important role for mid-layer feed-forward modules in storing factual associations and suggest that direct manipulation of computational mechanisms may be a feasible approach for model editing. The code, dataset, visualizations, and an interactive demo notebook are available at https://rome.baulab.info/
연구 동기 및 목표
- GPT 유사 autoregressive 트랜스포머에서 사실적 연상가가 저장된 위치를 식별한다.
- 사실 기억에 관여하는 결정적 활성화를 식별하기 위한 인과 추적 기법 개발.
- MLP 가중치를 업데이트하여 사실적 연상을 삽입하거나 수정하기 위한 Rank-One Model Editing (ROME) 제안.
- 일반화와 특이성을 평가하기 위해 표준 및 반사실 편집 벤치마크에서 ROME를 평가.
- 기존의 파인튜닝 및 하이퍼네트워크 편집 방법과 ROME를 비교하고 강인성을 분석.
제안 방법
- 은닉 상태가 사실 예측에 미치는 간접 효과를 정량화하기 위한 인과 매개 프레임워크를 구성한다.
- 마지막 주제 토큰에서 기억을 매개하는 결정적 중간 계층 MLP 활성화를 식별한다.
- MLP를 선형 연결 기억으로 모델링하고, MLP 투영 행렬에 한 랭크 원 업데이트로 새로운 키-값 쌍을 삽입하는 Rank-One Model Editing (ROME)을 공식화한다.
- 마지막 토큰에서 주제에 대한 활성화 기반 키의 평균으로 k*를 계산한다.
- KL 제약을 통한 본질적 드리프트를 최소화하면서 원하는 객체의 확률을 최대화하는 벡터 v*를 최적화하여 계산한다.
- Wproj^(l)에 랭크 원 업데이트를 적용하여 Wproj_hat = Wproj + Lambda (C^{-1} k*)^T, 단 C = KK^T로 한다.
실험 결과
연구 질문
- RQ1GPT의 중간 계층의 피드포워드 모듈이 사실 기억의 인과적 위치로 식별될 수 있는가?
- RQ2가중치를 전체적으로 조정하는 대신 내부 연산을 편집하여 모델이 저장한 사실을 직접 수정하는 방법은 무엇인가?
- RQ3기존 방법과 비교할 때 Rank-One Model Editing (ROME)가 사실 연관성에 대해 효과적이고 일반화 가능하며 구체적인 편집을 제공하는가?
- RQ4CounterFact 데이터셋이 편집 후 일반화와 특이성 간의 균형을 드러낼 수 있는가?
- RQ5인과 추적 결과가 계층과 토큰 전반에 걸쳐 성공적인 ROME 편집과 일치하는가?
주요 결과
| 편집자 | 효능 | 의역 | 특이성 |
|---|---|---|---|
| GPT-2 XL | 22.2 ± 0.5 | 21.3 ± 0.5 | 24.2 ± 0.5 |
| FT | 99.6 ± 0.1 | 82.1 ± 0.6 | 23.2 ± 0.5 |
| FT+L | 92.3 ± 0.4 | 47.2 ± 0.7 | 23.4 ± 0.5 |
| KE | 65.5 ± 0.6 | 61.4 ± 0.6 | 24.9 ± 0.5 |
| KE-zsRE | 92.4 ± 0.3 | 90.0 ± 0.3 | 23.8 ± 0.5 |
| MEND | 75.9 ± 0.5 | 65.3 ± 0.6 | 24.1 ± 0.5 |
| MEND-zsRE | 99.4 ± 0.1 | 99.3 ± 0.1 | 24.1 ± 0.5 |
| ROME | 99.8 ± 0.0 | 88.1 ± 0.5 | 24.2 ± 0.5 |
- 인과 추적은 늦은 계층에서 강한 간접 효과를 드러내고 특히 마지막 주제 토큰의 중간 계층 MLP에서 두드러진다.
- 초기 위치에서는 MLP 기여가 우세하고, 프롬프트의 마지막 토큰에서는 어텐션이 주도한다.
- ROME은 단일 랭크 원 업데이트를 통해 새로운 사실 연관성을 삽입할 수 있으며, zsRE에서 파인튜닝 및 하이퍼네트워크 베이스라인에 비해 경쟁력 있는 효율을 보인다.
- ROME은 CounterFact에서 강한 일반화와 특이성을 달성하며 FT, FT+L, KE, MEND 등 여러 베이스라인보다 균형 면에서 우수하다.
- 편집은 최종 주제 토큰에서 중간 계층 MLP를 대상으로 할 때 가장 효과적이며, 일반화는 GPT-2-XL의 18층 근처에서 정점에 달한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.