[論文レビュー] Who's Harry Potter? Approximate Unlearning in LLMs
本論文は、LLMにおける特定の訓練サブセットの学習を完全再訓練なしで近似的に忘却する方法を提示し、Llama2-7bからハリー・ポッターの内容を消去しつつ一般的な性能を維持することを示しています。
Large language models (LLMs) are trained on massive internet corpora that often contain copyrighted content. This poses legal and ethical challenges for the developers and users of these models, as well as the original authors and publishers. In this paper, we propose a novel technique for unlearning a subset of the training data from a LLM, without having to retrain it from scratch. We evaluate our technique on the task of unlearning the Harry Potter books from the Llama2-7b model (a generative language model recently open-sourced by Meta). While the model took over 184K GPU-hours to pretrain, we show that in about 1 GPU hour of finetuning, we effectively erase the model's ability to generate or recall Harry Potter-related content, while its performance on common benchmarks (such as Winogrande, Hellaswag, arc, boolq and piqa) remains almost unaffected. We make our fine-tuned model publicly available on HuggingFace for community evaluation. To the best of our knowledge, this is the first paper to present an effective technique for unlearning in generative language models. Our technique consists of three main components: First, we use a reinforced model that is further trained on the target data to identify the tokens that are most related to the unlearning target, by comparing its logits with those of a baseline model. Second, we replace idiosyncratic expressions in the target data with generic counterparts, and leverage the model's own predictions to generate alternative labels for every token. These labels aim to approximate the next-token predictions of a model that has not been trained on the target data. Third, we finetune the model on these alternative labels, which effectively erases the original text from the model's memory whenever it is prompted with its context.
研究の動機と目的
- 著作権や倫理的懸念から、LLM において特定の訓練データを忘却する必要性を動機づける。
- 全再訓練を回避し、忘却対象データのサイズに比例してスケールする実用的な忘却手法を提案する。
- Llama2-7b からハリー・ポッターの内容を削除して手法を実証し、ベンチマークで一般化性能を評価する。
- 制約の分析と、今後適応可能で規範に準拠した LLM の可能性を示す。
提案手法
- 忘却対象で強化学習を行い、ベースラインモデルとのロジット比較を通じて対象に関連するトークンを識別するモデルを訓練する。
- 個性の強い表現を一般的な語に置換し、アンカー用語の翻訳を用いて代替ラベルを導出することで、一般的な予測を作成する。
- 生成された一般的ラベルを用いた入力テキストでベースラインモデルをファインチューニングして、対象知識を忘却する。
- 一般的な予測を得るための2つの機構を用いる:強化ブートストラッピングとアンカー用語翻訳を、特定の式で結合して一般的ラベルを作成する。
- 512トークンブロックを反復的に処理し、おおよそ150回の勾配ステップを実行してモデルをファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1ターゲットとなるデータを、ゼロから再訓練せずにLLMでおおよそ忘却できるか?
- RQ2忘却中にターゲット特有の内容を置換するために、一般的予測をどのように生成できるか?
- RQ3標準的なベンチマークで測定される一般的能力への忘却の影響はどのようか?
- RQ4情報漏洩や意図しない忘却など、制約とリスクは何か?
主な発見
- 本手法は、約1 GPU時間のファインチューニング後に Llama-7b-chat からハリー・ポッター関連コンテンツを効果的に消去する。
- 一般ベンチマーク(ARC、BoolQ、HellaSwag、OpenBookQA、PIQA、Winogrande)は、忘却後もほぼ元の性能を示す。
- このアプローチは、完了と確率ベースのテストによって、対象コンテンツへのモデルの馴染みを低減させる。
- アブレーションにより、最良の結果には強化ブートストラッピングとアンカー用語技術の双方が必要であることが示された。
- オープンソース公開により、コミュニティによる評価と忘却品質の対立検証が可能になる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。