[논문 리뷰] Who's Harry Potter? Approximate Unlearning in LLMs
해당 논문은 전체 재훈련 없이 LLM에서 대상 훈련 부분의 언러닝을 근사하는 방법을 제시하고, Llama2-7b에서 Harry Potter 콘텐츠를 지우면서 일반 성능은 보존하는 시연으로 보여줍니다.
Large language models (LLMs) are trained on massive internet corpora that often contain copyrighted content. This poses legal and ethical challenges for the developers and users of these models, as well as the original authors and publishers. In this paper, we propose a novel technique for unlearning a subset of the training data from a LLM, without having to retrain it from scratch. We evaluate our technique on the task of unlearning the Harry Potter books from the Llama2-7b model (a generative language model recently open-sourced by Meta). While the model took over 184K GPU-hours to pretrain, we show that in about 1 GPU hour of finetuning, we effectively erase the model's ability to generate or recall Harry Potter-related content, while its performance on common benchmarks (such as Winogrande, Hellaswag, arc, boolq and piqa) remains almost unaffected. We make our fine-tuned model publicly available on HuggingFace for community evaluation. To the best of our knowledge, this is the first paper to present an effective technique for unlearning in generative language models. Our technique consists of three main components: First, we use a reinforced model that is further trained on the target data to identify the tokens that are most related to the unlearning target, by comparing its logits with those of a baseline model. Second, we replace idiosyncratic expressions in the target data with generic counterparts, and leverage the model's own predictions to generate alternative labels for every token. These labels aim to approximate the next-token predictions of a model that has not been trained on the target data. Third, we finetune the model on these alternative labels, which effectively erases the original text from the model's memory whenever it is prompted with its context.
연구 동기 및 목표
- LLM에서 저작권 및 윤리적 문제로 특정 학습 데이터를 잊어버려야 할 필요성을 동기 부여합니다.
- 전체 재훈련을 피하고 잊어야 하는 데이터 크기에 따라 확장 가능한 실용적 언러닝 방법을 제시합니다.
- Llama2-7b에서 Harry Potter 콘텐츠를 제거하고 벤치마크에서 일반화 성능을 평가하는 방법을 시연합니다.
- 제한점 분석과 향후 적응 가능하고 준수하는 LLM의 잠재력에 대한 분석을 제공합니다.
제안 방법
- 대상과 관련된 토큰을 식별하기 위해 로짓 비교를 통해 기준 모델과 비교하여 대상 언러닝 타겟에서 강화 모델을 학습합니다.
- 고유한 표현을 일반 대체 표현으로 바꾸고 앵커 용어 번역을 사용해 대체 라벨을 도출하여 일반 예측을 생성합니다.
- 생성된 일반 라벨로 입력 텍스트에서 기본 모델을 미세조정하여 대상 지식을 지웁니다.
- 일반 예측을 얻기 위해 두 가지 메커니즘(강화 부트스트래핑 및 앵커드-텀 번역)을 사용하고, 특정 방정식으로 결합해 일반 라벨을 형성합니다.
- 모델을 약 150개의 그래디언트 스텝으로 미세조정하기 위해 512-토큰 블록을 반복적으로 처리합니다.
실험 결과
연구 질문
- RQ1대상 데이터가 처음부터 재학습 없이도 LLM에서 근사적으로 잊혀질 수 있는가?
- RQ2언러닝 중 대상별 콘텐츠를 대체하기 위해 일반 예측은 어떻게 생성될 수 있는가?
- RQ3일반 벤치마크로 측정된 일반 능력에 미치는 언러닝의 영향은 무엇인가?
- RQ4정보 누출이나 의도치 않은 망각과 같은 한계점과 위험은 무엇인가?
주요 결과
- 해당 방법은 ~1 GPU 시간의 미세조정 이후 Llama-7b-chat에서 Harry Potter 관련 콘텐츠를 효과적으로 삭제합니다.
- 일반 벤치마크(ARC, BoolQ, HellaSwag, OpenBookQA, PIQA, Winogrande)가 언러닝 후 대략 원래 성능에 근접함을 보여줍니다.
- 대상 콘텐츠에 대한 모델의 친숙도가 감소했음을 완료 및 확률 기반 테스트로 확인합니다.
- 최적의 결과를 얻으려면 강화 부트스트랩과 앵커드-텀 기법 모두가 필요하다는 것이 평가를 통해 입증됩니다.
- 오픈 소스 공개를 통해 커뮤니티 평가 및 언러닝 품질에 대한 적대적 검증이 가능해졌습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.