QUICK REVIEW

[論文レビュー] Large Language Models Can Be Strong Differentially Private Learners

Xuechen Li, Florian Tramèr|arXiv (Cornell University)|Oct 12, 2021

Privacy-Preserving Technologies in Data参考文献 79被引用数 73

ひとこと要約

この論文は、DP最適化（DP-SGD/DP-Adam）で大規模事前学習言語モデルをファインチューニングすると、適度なプライバシーバジェットの下でNLPタスクにおいて高い性能を達成できることを示しており、メモリ効率のよいゴーストクリッピング技術とタスクに合わせた目的の助けを得ている。

ABSTRACT

Differentially Private (DP) learning has seen limited success for building large deep learning models of text, and straightforward attempts at applying Differentially Private Stochastic Gradient Descent (DP-SGD) to NLP tasks have resulted in large performance drops and high computational overhead. We show that this performance drop can be mitigated with (1) the use of large pretrained language models; (2) non-standard hyperparameters that suit DP optimization; and (3) fine-tuning objectives which are aligned with the pretraining procedure. With the above, we obtain NLP models that outperform state-of-the-art DP-trained models under the same privacy budget and strong non-private baselines -- by directly fine-tuning pretrained models with DP optimization on moderately-sized corpora. To address the computational challenge of running DP-SGD with large Transformers, we propose a memory saving technique that allows clipping in DP-SGD to run without instantiating per-example gradients for any linear layer in the model. The technique enables privately training Transformers with almost the same memory cost as non-private training at a modest run-time overhead. Contrary to conventional wisdom that DP optimization fails at learning high-dimensional models (due to noise that scales with dimension) empirical results reveal that private learning with pretrained language models doesn't tend to suffer from dimension-dependent performance degradation. Code to reproduce results can be found at https://github.com/lxuechen/private-transformers.

研究の動機と目的

NLPにおける差分プライバシーを動機づけ、DP下での大規模モデルの性能・計算ボトルネックに対処する。
適切なプライバシーバジェット（ε が {3,8} で）内で、DP最適化を用いて大規模な事前学習言語モデルを効果的にファインチューニングできることを示す。
DP最適化と一致するハイパーパラメータ選択とタスク目的を特定し、性能を最大化する。
ゴーストクリッピングを用いて、個別例の勾配なしでトランスフォーマーのDPトレーニングを可能にするメモリ効率の高い手法を開発する。

提案手法

事前学習済みモデル（分類にはBERT/RoBERTaファミリ、生成にはGPT-2系）を、DP-Adamを用いて（ε, δ）プライバシーアカウンティングの下でファインチューニングする。
ハイパーパラメータ（バッチサイズ、学習率、訓練エポック数）を体系的に研究し、それらがDP性能に与える影響をタスク間で評価する。
分類のためにテキスト補完スタイルのファインチューニングを用い、事前学習目的と整合させる。
トランスフォーマーおよび逐次データのDP-SGDで個別例の勾配を生成しないように、ゴーストクリッピングを開発する。
層ごとのクリッピングと逐次に適した勾配ノルム計算を適用して、メモリ使用量を削減する。
完全なファインチューニングと低次元更新法を比較し、タスク全体でプライバシー制約下の性能を報告する。

実験結果

リサーチクエスチョン

RQ1大規模な事前学習言語モデルを差分プライバシーの下で効果的にファインチューニングして、競争力のあるNLP性能を達成できるか？
RQ2ハイパーパラメータとタスクに合わせた目的は、分類および生成タスクにおけるDP最適化の性能にどう影響するか？
RQ3パラメータ更新の次元数はDP性能を制限するか、それともDP下で完全なファインチューニングが低次元アプローチを上回ることができるか？
RQ4ゴーストクリッピングのようなメモリ効率手法は、実用的なメモリと計算コストで大規模トランスフォーマーモデルの私的訓練を可能にするか？
RQ5固定されたプライバシー予算の下で、モデルサイズが私的ファインチューニングの性能に与える影響は何か？

主な発見

DP-Adamでファインチューニングされた事前学習モデルは、ε が {3,8} のプライバシーバジェットで、タスクを横断して高い性能を達成する。
より大きな事前学習モデルは、プライベートなファインチューニングの結果を改善する。
DP-Adamを用いた完全なファインチューニングは、分類と生成の点で、特化した低次元DP手法と同等かそれを上回る。
ゴーストクリッピングはメモリ使用量を大幅に削减し、個別プライベートメモリコストに近いレベルでトランスフォーマーを私的訓練することを可能にし、実行時間のオーバーヘッドは控えめ。
分類のようなタスク整合性、例えばテキスト補完は私的学習性能を向上させる。
生成タスクでは、私的モデルがDP下で強力な非私有ベースラインを上回ることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。