QUICK REVIEW

[論文レビュー] Dreaming More Data: Class-dependent Distributions over Diffeomorphisms for Learned Data Augmentation

Søren Hauberg, Oren Freifeld|arXiv (Cornell University)|Oct 9, 2015

Generative Adversarial Networks and Image Synthesis被引用数 49

ひとこと要約

本稿では、画像間の空間的変形をリーマン多様体上の微分同相写像としてモデル化する、クラス固有の学習済みデータ拡張手法を提案する。各クラスごとにこれらの変形の確率的分布を学習し、それを用いて新しいトレーニングデータを生成することで、特に小規模データセットにおいて顕著な精度向上を達成した。MLPおよびCNNにおけるMNISTおよびその変種に対する実験では、手作業による拡張手法を上回った。

ABSTRACT

Data augmentation is a key element in training high-dimensional models. In this approach, one synthesizes new observations by applying pre-specified transformations to the original training data; e.g.~new images are formed by rotating old ones. Current augmentation schemes, however, rely on manual specification of the applied transformations, making data augmentation an implicit form of feature engineering. With an eye towards true end-to-end learning, we suggest learning the applied transformations on a per-class basis. Particularly, we align image pairs within each class under the assumption that the spatial transformation between images belongs to a large class of diffeomorphisms. We then learn a class-specific probabilistic generative models of the transformations in a Riemannian submanifold of the Lie group of diffeomorphisms. We demonstrate significant performance improvements in training deep neural nets over manually-specified augmentation schemes. Our code and augmented datasets are available online.

研究の動機と目的

手作業で設計された変換に依存し、すべてのクラスに同一の変換を適用する手作業によるデータ拡張の限界を是正すること。
トレーニングデータに内在するクラス固有の空間的変換を自動で発見することで、エンドツーエンドの学習を可能にすること。
画像の変形を、微分同相写像のリーマン多様体上の確率的分布としてモデル化し、安定的かつ一般化可能な拡張を実現すること。
学習済み変換を用いて現実的で多様なトレーニングサンプルを生成することで、分類性能を向上させること—特に小規模データセットにおいて。
クラス固有の不変性に適応可能なスケーラブルで原理的根拠のある、既存のデータ拡張の代替策を提供すること。

提案手法

各クラスについて、画像間の空間的変形がC¹微分同相写像であると仮定し、ペアワイズの画像アライメントを実行する。
推定された微分同相写像の集合を、微分同相写像のリー群の有限次元リーマン部分多様体に埋め込む。
微分同相写像のリーマン平均における接空間に、クラス固有の多変量正規分布を学習する。
新しいトレーニングサンプルは、トレーニングセットから画像を1つ選択し、学習済み分布から変換をサンプリングして画像に適用することで生成する。
CPAB（制約付きポジトロン断層映像法ベースのアライメント）表現を活用することで、微分同相的かつ可逆的な変換を高表現力かつ低次元で実現する。
本手法は、MLPおよび畳み込みニューラルネットワークの両方の訓練に適用され、MNISTおよびその変種で性能が評価された。

実験結果

リサーチクエスチョン

RQ1データからクラス固有の変換を学習するデータ拡張スキームは、手作業で設計された拡張戦略を上回ることができるか？
RQ2画像間の空間的変形を、微分同相写像のリーマン多様体上の確率的分布としてどのようにモデル化できるか？
RQ3データから拡張スキームを学習することで、特に小規模データセットにおいて一般化性能が向上するか？
RQ4本手法は、医療画像や時系列解析などの他の分野へ拡張可能か？
RQ5一様に手作業で定義された拡張と比較して、クラス固有の拡張がモデル性能に与える影響は何か？

主な発見

InfiMNIST500（1クラスあたり500枚）では、ConvNetのテスト誤差が1.06%にまで低下し、ベースラインの手作業拡張手法を顕著に上回った。
AlignMNIST500では、ConvNetのテスト誤差が0.84%にまで低下し、小規模データセットにおいて最先端の性能を達成した。
学習済み拡張スキームは、フルトレーニングセットに手作業拡張を適用した場合や、小規模なサブセットに手作業拡張を適用した場合をも上回った。これは、データ効率の向上を示している。
ConvNetを用いたAlignMNISTでは、テスト誤差が0.44%にまで低下し、最良の手作業拡張ベースライン比で相対的に15%の改善を達成した。
本手法により、各クラス固有の内在的変動に適合した多様で現実的な拡張データを生成することで、大規模モデルの小規模データセットでの訓練が可能になった。
リーマン幾何学の使用により、生成された変換が滑らかで可逆的であることが保証され、高次元の変位場モデルの不安定性を回避した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。