QUICK REVIEW

[論文レビュー] Self-Challenging Improves Cross-Domain Generalization

Zeyi Huang, Haohan Wang|arXiv (Cornell University)|Jul 5, 2020

Domain Adaptation and Few-Shot Learning参考文献 26被引用数 43

ひとこと要約

Representation Self-Challenging (RSC) を導入する。勾配ベースの訓練ヒューリスティックで、訓練中に支配的な特徴を抑制し、追加パラメータなしで未知のドメインに対する CNN の一般化を改善する。

ABSTRACT

Convolutional Neural Networks (CNN) conduct image classification by activating dominant features that correlated with labels. When the training and testing data are under similar distributions, their dominant features are similar, which usually facilitates decent performance on the testing data. The performance is nonetheless unmet when tested on samples from different distributions, leading to the challenges in cross-domain image classification. We introduce a simple training heuristic, Representation Self-Challenging (RSC), that significantly improves the generalization of CNN to the out-of-domain data. RSC iteratively challenges (discards) the dominant features activated on the training data, and forces the network to activate remaining features that correlates with labels. This process appears to activate feature representations applicable to out-of-domain data without prior knowledge of new domain and without learning extra network parameters. We present theoretical properties and conditions of RSC for improving cross-domain generalization. The experiments endorse the simple, effective and architecture-agnostic nature of our RSC method.

研究の動機と目的

類似の訓練/テスト分布を超えたクロスドメイン一般化の必要性を動機づける。
一般化を高めるための単純でドメイン非依存の訓練ヒューリスティック（RSC）を提案する。
RSC が一般化境界を引き締めることを示す理論分析を提供する。
標準的な DG ベンチマークとアブレーションを横断して RSC を実証的に検証する。

提案手法

各反復で、特徴表現 z に対するトップ分類器の勾配を計算する。
勾配の大きさの上位 p 百分位をゼロにするマスクを作成し、最も予測力のある特徴を実質的に捨て去る。
対応する z の要素を抑制して摂動された表現 ı{z} を形成する。
摂動された z を用いてソフトマックス出力を計算し、バックプロパゲーションで全ネットワークパラメータを更新する。
RSC は追加のパラメータを必要とせず、アーキテクチャに依存しない；p は捨てる特徴の割合を制御するハイパーパラメータである。
拡張には空間方向・チャネル方向の RSC、およびバッチベースの適用戦略が含まれる。

実験結果

リサーチクエスチョン

RQ1RSC はドメイン情報なしでクロスドメイン一般化を改善しますか？
RQ2ドロップ割合 p は訓練ダイナミクスと一般化にどう影響しますか？
RQ3勾配ベースの特徴ドロップは、活性化ベースやランダムドロップアウト戦略より効果的ですか？
RQ4空間的およびチャネル方向の RSC を組み合わせると、DG の性能はさらに向上しますか？
RQ5バックボーンアーキテクチャやデータセットの複雑さに対して RSC はどのようにスケールしますか？

主な発見

RSC は複数の DG ベンチマーク（例：PACS、VLCS、Office-Home、ImageNet-Sketch）全体で一貫してクロスドメイン一般化を改善する。
PACS では、RSC はベースラインを大幅に上回り、AlexNet 4.5、ResNet18 5.2、ResNet50 4.5 などの改善を報告している。
アブレーションでは、Top-Gradient feature dropping が Top-Activation およびランダムドロップより性能が良く、いくつかの設定で最適な p は約三分の一である。
空間のみの RSC および Spatial+Channel RSC はベースラインおよびいくつかのドロップアウト変種を上回り、畳み込み構造を活用することで追加の利得を示している。
RSC は ImageNet におけるネットワークサイズ間の性能格差を狭め、より大きなモデルを用いずにより強力な一般化を達成する効率性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。