QUICK REVIEW

[論文レビュー] What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation

Vitaly Feldman, Chiyuan Zhang|arXiv (Cornell University)|Aug 9, 2020

Anomaly Detection Techniques and Applications参考文献 32被引用数 95

ひとこと要約

本論文は、記憶化とトレーニング例の影響を推定することにより長尾記憶理論を実証的に検証し、記憶化された事例は一般化を顕著に支援し、多くの高影響ペアは単一のトレーニング例に起因することを示している。また、アーキテクチャ間の一貫性と記憶化が発生する深さを分析している。

ABSTRACT

Deep learning algorithms are well-known to have a propensity for fitting the training data very well and often fit even outliers and mislabeled data points. Such fitting requires memorization of training data labels, a phenomenon that has attracted significant research interest but has not been given a compelling explanation so far. A recent work of Feldman (2019) proposes a theoretical explanation for this phenomenon based on a combination of two insights. First, natural image and data distributions are (informally) known to be long-tailed, that is have a significant fraction of rare and atypical examples. Second, in a simple theoretical model such memorization is necessary for achieving close-to-optimal generalization error when the data distribution is long-tailed. However, no direct empirical evidence for this explanation or even an approach for obtaining such evidence were given. In this work we design experiments to test the key ideas in this theory. The experiments require estimation of the influence of each training example on the accuracy at each test example as well as memorization values of training examples. Estimating these quantities directly is computationally prohibitive but we show that closely-related subsampled influence and memorization values can be estimated much more efficiently. Our experiments demonstrate the significant benefits of memorization for generalization on several standard benchmarks. They also provide quantitative and visually compelling evidence for the theory put forth in (Feldman, 2019).

研究の動機と目的

長尾理論を動機づけ、長尾データ分布において記憶化が一般化を支援することを検証する。
大規模データセットに対して実現可能な記憶化と影響の推定器を開発する。
記憶化された例の限界効用を定量化し、高影響なトレーニング-テストペアを特定する。
アーキテクチャとデータレジーム間で記憶化と影響がどのように変化するかを評価する。
ネットワーク表現内のどの場所に記憶化が主に存在するかを調査する。

提案手法

記憶化を、i番目の例をトレーニングセットに加えたときの h(x_i) = y_i の確率の変化（Eq. 1）として定義する。
数mのランダムサブセットを用いた記憶化のサブサンプル推定子 mem_m を導入し、推定の実現可能性を高める。
サブサンプル影響 infl_m を定義し、ランダムサブセットを用いてトレーニング例を含めることがテスト精度に与える効果を平均化して推定する。
mサイズのランダムサブセットでモデルを訓練し、subset内に i が含まれる/含まれない場合を条件として Pr(h_k(x) = y) を計算し、記憶化と影響を推定する。
記憶化が高いペアを識別するための閾値 theta_mem = 0.25 と高影響ペアを識別するための閾値 theta_infl = 0.15 を提供する。
ResNet50 を ImageNet、CIFAR-100、MNIST で実験し、記憶化と影響を推定し、限界効用をランダムサブセットのベースラインと比較する。
アーキテクチャ間の一貫性と、記憶化は最終層よりも深い表現に大部分存在するという主張を検証する。

実験結果

リサーチクエスチョン

RQ1Fel19 が提案するように、長尾データ分布における一般化に記憶化が意味のある寄与をするのか。
RQ2大規模データセットに対して効率的なサブサンプリングで記憶化と影響の正確な推定が得られるか。
RQ3記憶化された例は、テスト精度を改善するうえで、ランダムに選ばれた例より限界効用が高いか。
RQ4高影響のトレーニング-テスト対は単一のトレーニング例に集中しており、視覚的に解釈可能か。
RQ5アーキテクチャ間で記憶化はどの部位（最終層 vs 表現）で主に起こるのか。

主な発見

CIFAR-100 と ImageNet には多くの記憶化された例が存在し、いくつかの記憶化推定値は ≥ 0.3 で、削除時に顕著な限界効用が見られる。
記憶化された例は、同じサイズのランダムなサブセットより限界効用が高く、記憶化は単にサンプル数を減らす以上の寄与を示す。
高影響なトレーニング-テスト対が多数存在（例：ImageNet で 1641 対）し、多くのテスト例は単一のトレーニング例の影響を受けている（1298 件のテスト例）。
高影響ペアは視覚的に解釈可能で、意味のある類似性や近似重複を反映しており、長尾のサブ集団を際立たせている。
記憶化された例を除去するとテスト精度が低下する；CIFAR-100 では、記憶化集合を除去した場合の精度低下は高影響部分でより大きく（寄与 2.38%）、全体より大きい。
大半の記憶化は最終層よりも深い表現に起因することを示しており、固定表現に対して線形分類器のみを訓練する効果は限定的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。