Skip to main content
QUICK REVIEW

[論文レビュー] Explicit Inductive Bias for Transfer Learning with Convolutional Networks

Li, Xuhong, Yves Grandvalet|arXiv (Cornell University)|Feb 5, 2018
Domain Adaptation and Few-Shot Learning被引用数 100
ひとこと要約

論文は、事前学習開始点へファインチューニングをバイアスする正則化子を提案し、L2-SP(および L2-SP-Fisher)が標準の L2 および他の罰則よりもCNNの転移学習で優れていると報告します。

ABSTRACT

In inductive transfer learning, fine-tuning pre-trained convolutional networks substantially outperforms training from scratch. When using fine-tuning, the underlying assumption is that the pre-trained model extracts generic features, which are at least partially relevant for solving the target task, but would be difficult to extract from the limited amount of data available on the target task. However, besides the initialization with the pre-trained model and the early stopping, there is no mechanism in fine-tuning for retaining the features learned on the source task. In this paper, we investigate several regularization schemes that explicitly promote the similarity of the final solution with the initial model. We show the benefit of having an explicit inductive bias towards the initial model, and we eventually recommend a simple $L^2$ penalty with the pre-trained model being a reference as the baseline of penalty for transfer learning tasks.

研究の動機と目的

  • 転移学習中に事前学習済み CNN からの知識を保持するための明示的帰納的バイアスの利用を動機づける。
  • 起点ではなく事前学習モデルを参照する複数のパラメータ正則化子を検討する。
  • CNN(ResNet)を用いて複数のソース/ターゲットタスクペアで提案正則化子を評価する。
  • L2-SP の派生版を標準の L2 および他のスパシティ/グループ・スパシティ罰則と比較する。

提案手法

  • 正則化された目的関数を J~(w)=J(w)+Omega(w) と定義し、J は負の対数尤度である。
  • L2-SP を提案する: Omega(w)= (alpha/2) * ||w - w0||^2、参照として事前学習済みの重み w0 を用いる。
  • 共有部分と新規部分を分割して別々の罰則を適用する拡張: (alpha/2)||wS - w0S||^2 + (beta/2)||wS-bar||^2。
  • L1-SP を組み込む: alpha||wS - w0S||_1 + (beta/2)||wS-bar||^2。
  • Convolutional Kernel Groups に対応するグループ・ラソ SP(GL-SP)を導入: alpha sum_g sg ||wGg - w0Gg||_2 + (beta/2)||wS-bar||^2。
  • 対角フィッシャ情報を重み付き指標として用いた GL-SP-Fisher および L2-SP-Fisher の派生を検討。
  • ImageNet/Places365 をソースとして ResNet を用い、ターゲットとして MIT Indoors 67、Stanford Dogs 120、Caltech 256 (30/60) を使用して実験を行う。
  • 正則化子が精度、層ごとの活性化類似性(R^2)、終身学習風設定での忘却に与える影響を評価する。

実験結果

リサーチクエスチョン

  • RQ1事前学習初期値への明示的帰納的バイアスを正則化で組み込むことは、標準の L2 正則化と比べて転移学習性能を向上させるか。
  • RQ2L2-SP、L2-SP-Fisher、L1-SP、GL-SP、およびそれらの Fisher 派生は、異なるソース-ターゲットタスクペアでどのように比較されるか。
  • RQ3CNN の転移学習において、単純な L2-SP ペナルティをベースラインとして用いるだけで十分か。
  • RQ4正則化が層間の事前学習特徴表現の保持(活性化レベル分析)に与える影響は何か。

主な発見

データベースL2L2-SPL2-SP-Fisher
MIT Indoors 6779.684.284.0
Stanford Dogs 12081.485.185.1
Caltech 256 – 3081.583.583.3
Caltech 256 – 6085.386.486.0
  • L2-SP および L2-SP-Fisher は、すべてのターゲットデータベースにおいて標準的な L2 のファインチューニングより一貫して改善を示す。
  • ターゲットデータが不足している場合、L2-SP および L2-SP-Fisher からの改善が大きい。
  • L1-SP および Group-Lasso のペナルティは、これらの転移設定において L2 ベースのペナルティよりも劣る。
  • Fisher ベースの派生はターゲットタスク転移で Euclidean L2-SP に顕著な優位性を示さないが、L2-SP-Fisher は終身学習風シナリオでの忘却を減らす可能性がある。
  • 層を凍結させることは L2 正則化を助ける場合があるが、L2-SP ファインチューニングほど効果的ではなく、L2-SP が凍結戦略より優勢になることが多い。
  • 活性化レベルの分析は、L2-SP が標準の L2 に比べてネットワークの深い部分の事前学習ユニットの役割をより高い R^2 で保持することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。