Skip to main content
QUICK REVIEW

[論文レビュー] Deep Unlearning via Randomized Conditionally Independent Hessians

Ronak Mehta, Sourav Pal|arXiv (Cornell University)|Jan 1, 2022
Stochastic Gradient Optimization Techniques被引用数 5
ひとこと要約

本稿では、L-CODEC(ランダム化された条件付き独立係数)を用いて、特定の訓練サンプルの影響を効果的に消去するために必要な最小限のモデルパラメータ集合(特にマークフ・ブランケット)を同定する、スケーラブルなディープ・アンラーニング手法を提案する。大規模なヘシアン行列の逆行列計算が計算的に非現実的であるのを避けることで、ResNets やトランスフォーマー、顔認識システムを含む大規模なビジョンおよびNLPモデルにおいて、近似的なアンラーニングを実現可能にし、強力なプライバシー保証(例:ϵ = 10⁻⁵)と残存データへの最小限の性能低下を達成する。

ABSTRACT

No description supplied

研究の動機と目的

  • 大規模なディープラーニングモデルにおけるヘシアンベースのアンラーニングの計算的非現実性(高次元ヘシアン行列の逆行列計算が不可避であるため)を解決すること。
  • 再訓練が非現実的である大規模なビジョンおよびNLPモデル(例:ResNets、トランスフォーマー、顔認識システム)において、実用的で近似的なアンラーニングを可能にすること。
  • 特定の訓練サンプルの影響を効果的に除去するために必要な最小限の条件付き独立パラメータ集合(マークフ・ブランケット)を同定する手法を開発すること。
  • 最適化ベースのアンラーニングの代替として、分布に依存しないスケーラブルな手法を提供し、行列の逆行列計算を回避しながら、強力なプライバシー保証(例:(ϵ, δ)-フォーゲット)を維持すること。

提案手法

  • 特定の訓練サンプルに対して最も条件付きに依存するパラメータのマークフ・ブランケットを同定するために、条件付き独立係数の変種であるL-CODECを提案する。
  • 分布に依存しない方法で入力の摂動を用いて条件付き依存関係を推定し、アンラーニングに適したパラメータ部分集合を選択する。
  • 大規模なヘシアン行列の逆行列計算を回避する代わりに、同定されたマークフ・ブランケットに対してブロック座標更新戦略を適用し、計算コストを著しく削減する。
  • 再訓練の効果を近似する1回の更新式 w′ = ŵ + g(ŵ, z′) を採用する。ここで g は L-CODEC によって同定されたパラメータ部分集合から導出される。
  • VGGFace(25088×4096層を含む)のような大規模モデルにおいて、メモリオーバーヘッドを低減するため、L-FOCI の「安価な」バージョンを採用し、最も影響力のあるパラメータスライス(例:最大の条件付き依存性を示すもの)のみを選択する。
  • 顔認識や人物再識別を含む多様なアーキテクチャ(CNN、ResNets、トランスフォーマー)とタスクにおいて、削除されたサンプルの性能低下と残存データの性能を測定することで、手法の妥当性を検証する。

実験結果

リサーチクエスチョン

  • RQ1分布に依存しないランダム化手法が、ヘシアン行列の逆行列計算を回避しつつ、特定の訓練サンプルの影響を効果的に消去するために必要な最小限のモデルパラメータ集合を同定できるか?
  • RQ2L-CODEC は、ビジョンおよびNLPシステムを含む大規模なディープラーニングモデルにおいて、(ϵ, δ)-フォーゲットを達成するマークフ・ブランケットをどの程度正確に同定できるか?
  • RQ3L-CODEC を用いたアンラーニングの性能は、完全な再訓練または他の近似的なアンラーニング手法と比較して、削除されたデータと残存データの両方において、精度の低下の観点でどの程度優れているか?
  • RQ4厳密なプライバシー制約(例:ϵ = 10⁻⁵)のもとで、モデルの有用性に顕著な劣化を来さずに、最大何個のサンプルをアンラーニングできるか?

主な発見

  • VGGFace を用いた顔認識において、1人の人物の100枚の画像を削除した結果、ϵ = 10⁻⁵ の条件下で10回の削除でそのクラスの精度がほぼゼロにまで低下したが、残存データの精度は安定した。
  • ϵ = 0.1 の条件下では、Market-1501 における人物再識別モデルで、mAP スコアの著しい低下を伴わず、100枚以上の削除が可能であった。
  • MNIST および CIFAR-10 モデルにおいて、削除されたサンプルの残存精度が急激に低下した一方で、勾配ノルムも顕著に減少し、効果的なアンラーニングが達成された。
  • 本手法は、ビジョンモデルにおける全クラスのアンラーニングに成功しており、スクラップされたサンプルのアクティベーションマップに顕著な変化が見られたが、非スクラップされたサンプルでは安定性が保たれた。
  • 25088×4096 層を有する大規模モデル(例:VGGFace)においても、「安価な」L-FOCI バージョン(1スライス選択)により、フルヘシアン逆行列計算が非現実的とされるメモリ制約下でもアンラーニングが可能であった。
  • 本手法は、数億パラメータを有するモデルに対してもスケーラブルであり、かつて計算的に非現実的とされていた環境でも近似的なアンラーニングを実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。