QUICK REVIEW

[論文レビュー] Dataset Augmentation in Feature Space

Terrance DeVries, Graham W. Taylor|arXiv (Cornell University)|Feb 17, 2017

Domain Adaptation and Few-Shot Learning被引用数 67

ひとこと要約

本論文は、学習済み特徴空間内で動作するドメイン非依存のデータ拡張手法を紹介します。近傍のコンテキストベクトル間を外挿することにより、音声・運動・画像を含む複数のドメインで性能が向上します。

ABSTRACT

Dataset augmentation, the practice of applying a wide array of domain-specific transformations to synthetically expand a training set, is a standard tool in supervised learning. While effective in tasks such as visual recognition, the set of transformations must be carefully designed, implemented, and tested for every new domain, limiting its re-use and generality. In this paper, we adopt a simpler, domain-agnostic approach to dataset augmentation. We start with existing data points and apply simple transformations such as adding noise, interpolating, or extrapolating between them. Our main insight is to perform the transformation not in input space, but in a learned feature space. A re-kindling of interest in unsupervised representation learning makes this technique timely and more effective. It is a simple proposal, but to-date one that has not been tested empirically. Working in the space of context vectors generated by sequence-to-sequence models, we demonstrate a technique that is effective for both static and sequential data.

研究の動機と目的

ドメイン特有の手作り変換を避けるドメイン非依存の拡張アプローチを動機付ける。
教師なし表現学習を活用して、単純な変換が現実的な合成データを生み出す特徴空間を作成する。
多様なデータセットに対して外挿、内挿、ノイズベースの拡張を評価する。
特徴空間の拡張が複数のタスクで最先端の結果に近づく、またはそれを上回ることを示す。

提案手法

ラベルなしデータから文脈ベクトル特徴空間を学習するために、2層のスタックLSTMからなるシーケンス自動エンコーダを訓練する。
デコード前または分類器へ入力する前に、コンテキストベクトルをノイズ、内挿、外挿で変換してデータを拡張する。
より良い再構成のために、時刻ごとにデコード器をコンテキストベクトルで条件付けする。
各サンプルについて、特徴空間でクラス内の最近傍をK個見つけ、内挿または外挿を用いて合成サンプルを生成する。
シーケンス分類器の訓練時にはデコード済みのコンテキストベクトルを用いて系列を再構成するか、あるいは静的分類器の特徴として直接用いる。
MNIST、CIFAR-10、AUSLAN、アラビア数字、UCF Kinect、UJI Pen Charactersを含む時系列および画像ドメインの拡張を評価する。

実験結果

リサーチクエスチョン

RQ1特徴空間での拡張は多様なドメインで教師あり学習の性能を改善するか。
RQ2特徴空間でのノイズ、内挿、外挿のうち、どの変換が一般化を最も効果的に改善するか。
RQ3特徴空間での外挿は従来の入力空間拡張を超える利点を提供できるか、またドメイン特化手法の補完となるか。

主な発見

コンテキストベクトル間の外挿は、複数のデータセットで性能を大幅に改善する（例：Arabic Digits：ベースライン1.36%の誤りが最寄り近傍外挿で0.74%に）。
ランダムノイズは一部タスクで性能をわずかに改善することがあるが、内挿は慎重にターゲット設定しないと結果を害することが多い。
隣人間の内挿はより滑らかな遷移を生み出す傾向があり、外挿は多様性を高め、複雑な意思決定境界で精度を高めることが多い。
MNISTでは、特徴空間での外挿により誤りが0.95%に低下し、基準の1.093%を下回り、入力空間のアファイン変換よりも良い設定がある。
CIFAR-10では、特徴空間の外挿により誤りが29.24%に低下し、基準の30.65%を下回り、入力空間拡張と組み合わせたときの補完的な利得を示した。
AUSLANおよびUCF Kinect全体で、特徴空間での外挿はベースラインを著しく上回る改善をもたらし、時にはドメイン特化の結果に近づくか超える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。