QUICK REVIEW

[論文レビュー] Learning Robust Global Representations by Penalizing Local Predictive Power

Haohan Wang, Songwei Ge|arXiv (Cornell University)|May 29, 2019

Domain Adaptation and Few-Shot Learning参考文献 59被引用数 278

ひとこと要約

本論文は Patch-wise Adversarial Regularization (PAR) を提案し、初期 CNN 層における局所的（パッチレベルの）予測信号を抑制して、ドメインシフト下で一般化性能が向上するグローバル表現の学習を促進する。target-domain データを必要とせずに適用可能。

ABSTRACT

Despite their renowned predictive power on i.i.d. data, convolutional neural networks are known to rely more on high-frequency patterns that humans deem superficial than on low-frequency patterns that agree better with intuitions about what constitutes category membership. This paper proposes a method for training robust convolutional networks by penalizing the predictive power of the local representations learned by earlier layers. Intuitively, our networks are forced to discard predictive signals such as color and texture that can be gleaned from local receptive fields and to rely instead on the global structures of the image. Across a battery of synthetic and benchmark domain adaptation tasks, our method confers improved generalization out of the domain. Also, to evaluate cross-domain transfer, we introduce ImageNet-Sketch, a new dataset consisting of sketch-like images, that matches the ImageNet classification validation set in categories and scale.

研究の動機と目的

グローバルな手掛かりに依存した頑健な画像分類を動機づけ、アウト・オブ・ドメイン一般化を改善する。
早期層での局所的予測力を抑制しつつ最終層の精度を保持するトレーニング目的を提案する。
合成および実世界のドメイン適応/一般化タスクにおける方法の実用的な変種とトレーニングヒューリスティクスを探索する。
Sketch 的な画像の大規模アウト・オブ・ドメインベンチマークとして ImageNet-Sketch を導入し、ロバスト性を評価する。

提案手法

局所特徴 g(X;δ) を各空間的位置で動作させるパッチ-wise な分類器 h を定義する。
各位置ごとに、局所パッチ表現から y を予測するよう h を訓練しつつ、g がそのような予測を妨げるようにする minimax 正則化を定式化する（Eq. 2）。
PAR 目的を標準損失と組み合わせる： δ,θ を最小化しつつ E[l(f(g(X;δ);θ),y)] − (λ/m′n′) Σ l(h(g(X;δ)_{i,j};φ),y) over δ,θ 、局所予測損失を φ で最小化する。
効率性のため h は 1×1 畳み込み（位置間で共有）として実装する；変種としてより強力な局所分類器（PAR M）、より大きなパッチ（PAR B）、高層を用いる（PAR H）などがある。
任意でトレーニングヒューリスティックを適用する：従来通り事前学習→ PAR でファインチューニング。
拡張と実践的なトレーニング詳細を提示し、ドメイン対敵性および他のドメイン一般化手法と比較する。

Figure 1 : In addition to the primary classifier, our model consists of a number of side classifiers, applied at each $1\times 1$ location in a designated early layer. The side classifiers result in one prediction per spatial location. The goal of patch-wise adversarial regularization is to fool all

実験結果

リサーチクエスチョン

RQ1早期層での局所予測力を抑制することは、ターゲットド-domain データなしでドメインシフトに対する頑健性を改善するか。
RQ2PAR は様々な摂動やデータセットシフトの下で、既存のドメイン適応/一般化手法と比較してどうなるか。
RQ3異なる PAR 変種（ vanilla、MLP 判別器、より大きなパッチ、より高い層の正則化）を適用すると、ドメイン内性能とドメイン外性能にどのような影響が出るか。
RQ4大規模なスケールでスケッチベースのアウト・オブ・ドメインベンチマーク（ImageNet-Sketch）は、標準ベンチマークを超えた PAR のロバスト性の優位性を示すか。

主な発見

Method	Greyscale	NegColor	RandKernel	RadialKernel	Average
ResNet	87.7	62.8	43.0	62.4	63.9
DANN	87.3	64.3	33.4	63.3	62.0
InfoDrop	86.4	57.6	41.3	60.3	61.4
HEX	87.6	62.4	42.5	61.9	63.6
PAR	88.1	66.2	47.0	63.8	66.3
PAR B	87.9	65.3	40.5	63.2	64.2
PAR M	87.8	67.6	47.5	63.2	66.5
PAR H	86.9	62.7	40.8	61.4	62.9

PAR とその変種は、MNIST 摂動、CIFAR-10 摂動、PACS に渡るドメイン外/一般化性能を向上させ、しばしば DANN、HEX、InfoDrop のベースラインを上回る。
PAR は PACS の Sketch-domain で顕著な利得を達成し、色・局所手が伝達しない場合の強さを示す。
摂動を伴う CIFAR-10 では、PAR はグレースケール、ネガカラー、ランダムカーネル、放射状カーネルの摂動で最良またはほぼ最良の精度を示し、PAR M/B/H 変種は摂動ごとに異なる性能を発揮。
ImageNet-Sketch 実験では、スケッチ風画像で AlexNet ベースラインよりも top-1/top-5 精度を modest に向上させ、ドメイン間一般化の改善を示す。
一部のドメイン内設定では局所パターンが真に予測力を持つ場合、PAR がドメイン内性能をわずかに低下させることがある；総じて、ベースの PAR は多くのシナリオで堅牢な改善を提供。

Figure 2 : Prediction accuracy with standard deviation for MNIST with patterns. Notations: V: vanilla baseline, E: HEX, D: DANN, I: InfoDrop, P: PAR, B: PAR B , M: PAR M , H: PAR H

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。