Skip to main content
QUICK REVIEW

[論文レビュー] Quantifying Memorization Across Neural Language Models

Nicholas Carlini, Daphne Ippolito|arXiv (Cornell University)|Feb 15, 2022
Topic Modeling被引用数 156
ひとこと要約

本論文は、ニューラル言語モデルにおける記憶化がモデルサイズ、データの重複、文脈長とどのようにスケールするかを定量化し、対数線形の成長と、記憶化を削減する重複排除の影響を示す。

ABSTRACT

Large language models (LMs) have been shown to memorize parts of their training data, and when prompted appropriately, they will emit the memorized training data verbatim. This is undesirable because memorization violates privacy (exposing user data), degrades utility (repeated easy-to-memorize text is often low quality), and hurts fairness (some texts are memorized over others). We describe three log-linear relationships that quantify the degree to which LMs emit memorized training data. Memorization significantly grows as we increase (1) the capacity of a model, (2) the number of times an example has been duplicated, and (3) the number of tokens of context used to prompt the model. Surprisingly, we find the situation becomes more complicated when generalizing these results across model families. On the whole, we find that memorization in LMs is more prevalent than previously believed and will likely get worse as models continues to scale, at least without active mitigations.

研究の動機と目的

  • 異なるモデルファミリとデータセットにおける記憶化の程度を、抽出可能性の定義を用いて定量化する。
  • モデルサイズ、データの重複、プロンプト長が記憶化をどのようにスケールさせるかを特徴づける。
  • デコード戦略と評価データのサンプリングが記憶化の測定にどのように影響するかを調査する。
  • データの重複排除やデータセットの変更が、モデル間の記憶化を緩和するかどうかを評価する。

提案手法

  • 抽出可能性による記憶化の定義: 文字列 s は、文脈長 k のトークンで抽出可能である。もし訓練データに前置き p が存在し、それが f(p) により s を出力する(グリーディー復元)。
  • 訓練データから前置きの接頭辞を提示し、シーケンスのサブセット間で厳密なサフィックス再現を測定して、記憶化を評価する。
  • 2つのサンプリング方式を用いる: (i) 均一にランダムなデータサブセット、(ii) 長さと重複回数にわたる重複正規化サンプリングで、記憶化をストレステストする。
  • 50〜450トークン以上の異なる文脈長でモデルにプロンプトを与え、記憶されたシーケンスの発見性を研究する。
  • スケーリング傾向の一般性を検証するため、モデルファミリ(The Pile の GPT-Neo、C4 の T5、The Pile の OPT)で実験を再現する。
  • 貪欲デコードとビームサーチを比較し、デコードが抽出可能な記憶化に及ぼす影響を評価する。

実験結果

リサーチクエスチョン

  • RQ1モデルファミリ内でのモデルサイズと記憶化はどのようにスケールするか?
  • RQ2データの重複( 반복例の頻度)は記憶化にどのように影響するか?
  • RQ3文脈長(プロンプト長)は、記憶されたデータの発見可能性にどの程度影響するか?
  • RQ4データの重複排除された訓練データは、モデルとタスク全体での記憶化を低減するか?
  • RQ5代替のモデルファミリと訓練データセットは、観測された記憶化のスケーリング法にどのような影響を与えるか?

主な発見

  • モデルファミリ内で、記憶化はモデルサイズとともに対数線形に成長する;パラメータを2倍にすると、抽出可能なデータが著しく増加する。
  • より多くの訓練データの重複があると記憶化が高くなり、重複回数の間で明確な対数線形の傾向が見られる。
  • 文脈トークンが長くなると抽出可能性が大きく増加し、十分な文脈とともにのみ記憶化が発見可能になる現象を示す。
  • ビームサーチはグリーディデコードと比較して抽出可能な記憶化をわずかに増加させるが、その影響は控えめである。
  • 重複排除された訓練データは、繰り返しが低〜中程度のレベルでの記憶化を低減する。ただし高反復ケースでは緩和効果が低下する。
  • モデルファミリ間(GPT-Neo on The Pile、T5 on C4、OPT on The Pile)でスケール効果は継続するが、規模は異なり、データの選別が記憶化の程度に影響を与え得ることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。