QUICK REVIEW

[論文レビュー] On Feature Normalization and Data Augmentation

Boyi Li, Felix Wu|arXiv (Cornell University)|Feb 25, 2020

Generative Adversarial Networks and Image Synthesis参考文献 90被引用数 28

ひとこと要約

本稿では、トレーニング中に画像間で特徴量のモーメント（平均と分散）を入れ替えることで、深層学習の一般化性能を向上させる、特徴空間におけるデータ拡張手法であるMoment Exchange（MoEx）を提案する。MoExは、ラベルを線形補間することで、モデルが正規化された特徴量とモーメント統計の両方に注目するよう強制し、外部モデルや複雑な前処理を必要とせず、視覚および音声のベンチマークにおいて一貫して精度と耐性を向上させる。

ABSTRACT

The moments (a.k.a., mean and standard deviation) of latent features are often removed as noise when training image recognition models, to increase stability and reduce training time. However, in the field of image generation, the moments play a much more central role. Studies have shown that the moments extracted from instance normalization and positional normalization can roughly capture style and shape information of an image. Instead of being discarded, these moments are instrumental to the generation process. In this paper we propose Moment Exchange, an implicit data augmentation method that encourages the model to utilize the moment information also for recognition models. Specifically, we replace the moments of the learned features of one training image by those of another, and also interpolate the target labels -- forcing the model to extract training signal from the moments in addition to the normalized features. As our approach is fast, operates entirely in feature space, and mixes different signals than prior methods, one can effectively combine it with existing augmentation approaches. We demonstrate its efficacy across several recognition benchmark data sets where it improves the generalization capability of highly competitive baseline networks with remarkable consistency.

研究の動機と目的

画像認識では特徴量のモーメントが捨てられる一方で、画像生成ではそれらが活用されるという、深層学習におけるこの二元論的対立を是正すること。
認識タスクにおいて、モーメント情報を明示的に活用するよう深層ネットワークを促す方法を開発すること。これは、モーメントをノイズとして扱うのではなく、意味のある信号と見なすことを目的とする。
入力空間の拡張法と直交するように、特徴空間で動作するシンプルで高速かつ合成可能なデータ拡張技術を構築すること。
視覚および音声アプリケーションを含む、多様なデータセットおよびアーキテクチャにおいて、モデルの一般化性能と耐性を向上させること。

提案手法

MoExは、ミニバッチ内の各画像について、最初のネットワーク層の出力からチャネルごとの平均および標準偏差を抽出する。
同じミニバッチ内の異なる画像同士で、これらのモーメントを交換し、ある画像のモーメント情報を別の画像に注入する。
交換された画像のターゲットラベルを線形補間することで、モデルが正規化された特徴量と交換されたモーメントの両方から学習するよう強制する。
この手法は完全に特徴空間で動作するため、クロップ、フリップ、Mixupなどの入力空間の拡張法と直交する。
数行のコードで実装可能であり、既存の拡張手法と簡単に組み合わせられる。
このアプローチは一般化可能であり、モーメントに加えて主成分などの他の統計量にも拡張可能である。

実験結果

リサーチクエスチョン

RQ1従来、認識モデルで捨てられがちな特徴量のモーメントを、一般化性能の向上に寄与する意味のある信号として活用できるか？
RQ2トレーニング中に画像間でモーメントを交換することで、異なるデータセットおよびアーキテクチャにおけるモデルの精度と耐性にどのような影響を与えるか？
RQ3MoExのような特徴空間における拡張法は、既存の入力空間の拡張手法と効果的に組み合わせられるか？
RQ4MoExは、画像分類を越えて、音声認識などの下流タスクにおいても性能を向上させるか？
RQ5スタイル転送に基づく拡張法など、データ分布を明示的に変更する先行手法と比較して、MoExはどのように差をつけるか？

主な発見

MoExは11の多様な視覚ベンチマークにおいて一貫してトップ-1精度を向上させ、Cutmixと組み合わせた場合、ImageNet-Aで最大7.9%の向上を達成した。
ImageNet-Aにおいて、MoExとCutmixを組み合わせた場合、8.5 AURRAおよび42.6 RMSキャリブレーション誤差を達成し、Mixup や Cutout を含むすべてのベースラインを上回った。
Speech Commandsデータセットにおける音声認識タスクでは、MoExを大規模モデルに適用することで、テスト誤差を2.21%（WRN-28-10）から1.98%に低下させ、視覚領域を超えた有効性を示した。
他の拡張法と組み合わせた場合、小さなモデルに対しても耐性が向上するが、DenseNet-BC-100のような非常に小さなアーキテクチャでは、その向上は小さい。
MoExは非常に合成可能である：Cutmix や Mixup といった既存手法と組み合わせた場合、その利得が累積される。これは、直交的かつ加法的な改善を示している。
アブレーションスタディの結果、位置情報の正規化からモーメントを除去すると性能が低下することが確認され、モーメントが意味のある構造的情報を保持していることが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。