Skip to main content
QUICK REVIEW

[論文レビュー] Regularizing Deep Networks with Semantic Data Augmentation

Yulin Wang, Gao Huang|arXiv (Cornell University)|Jul 21, 2020
Advanced Neural Network Applications参考文献 84被引用数 23
ひとこと要約

本稿では、深層特徴空間における意味的変換を通じて訓練データを暗黙的に拡張することにより、深層ネットワークの正則化を実現する高効率な手法である意味的データ拡張(ISDA)を提案する。クラスごとの共分散行列から方向をサンプリングし、拡張をロバストな交差エントロピー損失として定式化することで、GAN や生成モデルの訓練を必要とせず、CIFAR-10、CIFAR-100、SVHN、ImageNet、Cityscapes といった複数のデータセットにおいて、ResNets や DenseNets において一般化性能を向上させる。特に、補助モデルの訓練や明示的な拡張サンプルの生成を一切行わない点が特徴である。

ABSTRACT

Data augmentation is widely known as a simple yet surprisingly effective technique for regularizing deep networks. Conventional data augmentation schemes, e.g., flipping, translation or rotation, are low-level, data-independent and class-agnostic operations, leading to limited diversity for augmented samples. To this end, we propose a novel semantic data augmentation algorithm to complement traditional approaches. The proposed method is inspired by the intriguing property that deep networks are effective in learning linearized features, i.e., certain directions in the deep feature space correspond to meaningful semantic transformations, e.g., changing the background or view angle of an object. Based on this observation, translating training samples along many such directions in the feature space can effectively augment the dataset for more diversity. To implement this idea, we first introduce a sampling based method to obtain semantically meaningful directions efficiently. Then, an upper bound of the expected cross-entropy (CE) loss on the augmented training set is derived by assuming the number of augmented samples goes to infinity, yielding a highly efficient algorithm. In fact, we show that the proposed implicit semantic data augmentation (ISDA) algorithm amounts to minimizing a novel robust CE loss, which adds minimal extra computational cost to a normal training procedure. In addition to supervised learning, ISDA can be applied to semi-supervised learning tasks under the consistency regularization framework, where ISDA amounts to minimizing the upper bound of the expected KL-divergence between the augmented features and the original features. Although being simple, ISDA consistently improves the generalization performance of popular deep models (e.g., ResNets and DenseNets) on a variety of datasets, i.e., CIFAR-10, CIFAR-100, SVHN, ImageNet, and Cityscapes.

研究の動機と目的

  • 回転や反転といった低レベルでクラスに依存しない変換を適用する従来のデータ拡張手法の限界を解決し、十分な多様性を確保できない問題に対処する。
  • 各クラスごとに生成モデル(例:GAN)を訓練する必要がある既存の意味的拡張手法の高い計算コストと複雑さを克服する。
  • 深層特徴空間における線形化された意味的方向を活用することで、意味的で有意義なデータ拡張を暗黙的に行う手法を開発する。
  • ネットワークアーキテクチャの変更や追加の推論ステップを必要とせず、標準的な学習パイプラインに効率的に統合可能であることを実現する。
  • 一貫性正則化フレームワークに基づく半教師あり学習にこの手法を拡張し、最小限のオーバーヘッドで耐性と性能を向上させる。

提案手法

  • クラスごとの共分散行列を動的に推定したゼロ平均正規分布からランダムベクトルをサンプリングし、深層特徴空間における意味的に有意義な方向を特定する。
  • 拡張データセット上の期待交差エントロピー損失を上界として定式化し、明示的なデータ生成を避けるために学習中に暗黙的に最小化する。
  • 拡張サンプルの期待損失の上界を用いて正則化を行う新しいロバストな交差エントロピー損失関数を導出する。
  • 各クラスの特徴の共分散行列を用いて意味的方向をサンプリングし、物体のテクスチャや背景の変化といったクラス固有の意味的変動を捉える。
  • 損失関数の修正により、ISDA を教師ありおよび半教師あり学習に統合し、補助ネットワークや明示的なデータ生成を一切不要とする。
  • プラグアンドプレイ形式で適用可能:任意のソフトマックス交差エントロピー損失を用いる深層ネットワークと互換性があり、わずかなハイパーパramータの調整のみで利用可能である。

実験結果

リサーチクエスチョン

  • RQ1生成モデルの訓練や推論を必要とせず、補助的な生成モデルを用いずに効果的な意味的データ拡張を達成できるか?
  • RQ2明示的な生成を伴わず、特徴の統計情報のみを用いて、深層特徴空間で意味的変換を暗黙的にシミュレートできるか?
  • RQ3クラスごとの共分散行列を用いることで、ランダムまたはグローバルな共分散サンプリングよりも意味的で効果的な意味的方向が得られるか?
  • RQ4小さなサンプル数での明示的拡張と比較して、暗黙的意味的拡張は一般化性能および耐性面で優れているか?
  • RQ5ISDA は一貫性正則化フレームワーク下での半教師あり学習に効果的に拡張可能であり、最小限の計算コストで性能を向上させられるか?

主な発見

  • ISDA は CIFAR-10、CIFAR-100、SVHN、ImageNet、Cityscapes で最先端の性能を達成し、ResNets や DenseNets において一貫して一般化性能を向上させる。
  • Wide-ResNet-28-10 を用いた CIFAR-100 では、ISDA がテスト誤差を 16.95% ± 0.11% まで低減し、ベースラインより 1.63 パcent point の改善を達成する。
  • アブレーションスタディの結果、対角行列または単位行列を用いる場合に性能が低下し、グローバルな共分散行列を用いる場合も一般化性能に悪影響を及げるため、クラスごとの統計情報の重要性が確認された。
  • λ₀ = 0.5 の ISDA は複数のデータセットおよび設定でロバストな性能を発揮し、最適な性能は 0.25 ≤ λ₀ ≤ 1 の範囲で得られる。
  • M(=1,2,5)という小さな M を用いた明示的意味的データ拡張は、特徴空間の推定が不十分なために性能が低く、M が増加するにつれて性能が向上し、M → ∞ の極限では ISDA に近づく。
  • 半教師あり学習において、ISDA と VAT を組み合わせることで、4,000 個のラベルを持つ CIFAR-10 で誤差を低減し、低データ環境下での有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。