QUICK REVIEW

[논문 리뷰] Modifying Memories in Transformer Models

Chen Zhu, Ankit Singh Rawat|arXiv (Cornell University)|2020. 12. 01.

Topic Modeling참고 문헌 45인용 수 42

한 줄 요약

본 논문은 Transformer에 대한 지식 수정 작업을 정의하고, 수정되지 않은 사실에 대한 성능을 보존하면서 모델 가중치에 암묵적으로 저장된 특정 사실을 업데이트하기 위한 제약된 파인튜닝을 제안하며, 다양한 베이스라인과 메모리 보강 변형을 평가한다.

ABSTRACT

Large Transformer models have achieved impressive performance in many natural language tasks. In particular, Transformer based language models have been shown to have great capabilities in encoding factual knowledge in their vast amount of parameters. While the tasks of improving the memorization and generalization of Transformers have been widely studied, it is not well known how to make transformers forget specific old facts and memorize new ones. In this paper, we propose a new task of \emph{explicitly modifying specific factual knowledge in Transformer models while ensuring the model performance does not degrade on the unmodified facts}. This task is useful in many scenarios, such as updating stale knowledge, protecting privacy, and eliminating unintended biases stored in the models. We benchmarked several approaches that provide natural baseline performances on this task. This leads to the discovery of key components of a Transformer model that are especially effective for knowledge modifications. The work also provides insights into the role that different training phases (such as pretraining and fine-tuning) play towards memorization and knowledge modification.

연구 동기 및 목표

Transformer 매개변수에 저장된 특정 사실 지식을 기존 지식의 저하 없이 업데이트하는 문제를 동기부여하고 형식화한다.
후보 방법의 지식 수정 능력을 평가하기 위한 벤치마크를 생성한다(기반은 T-REx와 zsRE).
기본 방법들을 조사하고 대형 Transformer 모델에서 메모리 수정에 효과적인 전략을 식별한다.
다른 학습 단계(사전학습 vs. 파인튜닝) 및 모델 구성요소가 기억화와 수정에 어떤 영향을 주는지 분석한다.

제안 방법

수정될 사실의 부분집합을 대상으로 제약된 최적화 문제로 지식 수정을 형식화한다.
수정된 증거에 대한 가중치 공간 제약을 가진 제약된 파인튜닝을 제안하여 수정되지 않은 사실에 대한 간섭을 제한한다.
특정 Transformer 블록의 파인튜닝 및 제약된 최적화(l_infinity 또는 Fisher 정보 등을 대안으로 사용)로 실험한다.
재학습, 수정된 사실에 대한 파인튜닝, 혼합 배치 등을 포함한 기본 방법들을 다수의 모델에 걸친 제약된 파인튜닝과 비교하여 평가한다.

실험 결과

연구 질문

RQ1Transformer 모델은 수정되지 않은 사실에 대한 정확도를 보존하면서 선택된 사실 지식을 신뢰성 있게 수정할 수 있는가?
RQ2수정 성공과 망각 위험 사이의 균형을 가장 잘 맞추는 모델링 선택은 어떤 것들인가(어떤 계층을 파인튜닝할지, 제약 조건, 학습 방식)?
RQ3명시적 메모리 아키텍처(FaE)가 사실 업데이트 능력 면에서 표준 Transformer 모델과 어떻게 비교되는가?
RQ4기억화와 지식 수정에서 사전 학습과 파인튜닝의 역할은 무엇인가?
RQ5수정되는 사실의 수가 증가함에 따라 제약된 파인튜닝 접근법의 확장성은 어떠한가?

주요 결과

수정된 증거에 대한 제약된 파인튜닝과 l_infinity 가중치 제약은 수정된 사실을 효과적으로 업데이트하면서 수정되지 않은 지식을 보존한다.
최상의 결과는 종종 전체 모델이 아니라 특정 계층을 수정하는 것에서 나오며, 최적의 계층은 수정된 사실의 수와 모델 상태에 따라 달라질 수 있다.
FaE의 상징적 기억만 파인튜닝하는 것은 불충분하며, 매개변수 파인튜닝을 통해 암묵적 지식을 업데이트하는 것이 많은 설정에서 최상의 절충안을 제공한다.
모델 전반에 걸쳐 제약된 FTM (제약 하에 수정된 사실에 파인튜닝)은 비제약 파인튜닝 및 혼합 배치 전략보다 수정되지 않은 사실 보존 측면에서 우수하다.
메모리 보강 FaE는 수정된 사실 정확도에서 경쟁력을 얻을 수 있지만 전체 지식 수정 균형에서 일관되게 제약된 BERT-Large를 이기지 못한다.
본 연구는 제약된 층별 업데이트와 선택적 층 파인튜닝이 지식 수정에 효과적임을 보여주는 벤치마크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.