QUICK REVIEW

[論文レビュー] Unsupervised Data Augmentation

Qizhe Xie, Zihang Dai|arXiv (Cornell University)|Apr 29, 2019

Topic Modeling参考文献 18被引用数 175

ひとこと要約

UDAは、最先端の増幅ポリシーから得られる現実的なノイズを用いて、ラベルなしデータにデータ増幅を適用し、元のラベルなし例と増幅されたラベルなし例の間で予測の一貫性を強制することで、半教師あり学習の手法を提案する。この手法は、6つのNLPタスクおよび3つのビジョンタスクで最先端の結果を達成し、ラベル付きデータが非常に少ない状況下でもCIFAR-10およびSVHNで誤差率を30％以上削減した。

ABSTRACT

Despite its success, deep learning still needs large labeled datasets to succeed. Data augmentation has shown much promise in alleviating the need for more labeled data, but it so far has mostly been applied in supervised settings and achieved limited gains. In this work, we propose to apply data augmentation to unlabeled data in a semi-supervised learning setting. Our method, named Unsupervised Data Augmentation or UDA, encourages the model predictions to be consistent between an unlabeled example and an augmented unlabeled example. Unlike previous methods that use random noise such as Gaussian noise or dropout noise, UDA has a small twist in that it makes use of harder and more realistic noise generated by state-of-the-art data augmentation methods. This small twist leads to substantial improvements on six language tasks and three vision tasks even when the labeled set is extremely small. For example, on the IMDb text classification dataset, with only 20 labeled examples, UDA outperforms the state-of-the-art model trained on 25,000 labeled examples. On standard semi-supervised learning benchmarks, CIFAR-10 with 4,000 examples and SVHN with 1,000 examples, UDA outperforms all previous approaches and reduces more than $30\%$ of the error rates of state-of-the-art methods: going from 7.66% to 5.27% and from 3.53% to 2.46% respectively. UDA also works well on datasets that have a lot of labeled data. For example, on ImageNet, with 1.3M extra unlabeled data, UDA improves the top-1/top-5 accuracy from 78.28/94.36% to 79.04/94.45% when compared to AutoAugment.

研究の動機と目的

深層学習における大規模なラベル付きデータセットへの依存を減らすために、データ増幅を活用してラベルなしデータを活用すること。
教師なしおよび半教師あり設定におけるデータ増幅の有効性が限定的であるという問題に取り組むこと。
元のラベルなし例と増幅されたラベルなし例の間で予測の一貫性を強制することで、モデルの一般化性能を向上させること。
現実的で強力な増幅ポリシーが、ランダムノイズよりも半教師あり学習において優れているかどうかを検証すること。

提案手法

UDAはラベルなし例にデータ増幅を適用し、元のバージョンと増幅されたバージョンの間でモデルの予測の一貫性を強制する。
この手法は、AutoAugment や Cutout などの最先端のデータ増幅ポリシーを用い、ガウスノイズやドロップアウトノイズではなく、現実的で非ランダムなノイズを生成する。
予測の一貫性は、元のラベルなし入力と増幅されたラベルなし入力の予測間のKLダイバージェンスを最小化する一貫性正則化損失を用いて強制される。
モデルは、ラベル付きデータ（交差エントロピー損失）とラベルなしデータ（一貫性損失）の両方を用いてエンドツーエンドで訓練され、半教師あり学習が可能になる。
UDAは自己学習の形で適用され、増幅されたラベルなしデータに対する予測がモデルの改善に使用される。
このアプローチはドメインに依存せず、画像認識および自然言語処理タスクの両方で有効であり、ImageNet、CIFAR-10、SVHN、および IMDb で適用可能である。

実験結果

リサーチクエスチョン

RQ1ラベルなしデータに適用されたデータ増幅が、半教師あり学習におけるモデル性能を顕著に向上させることができるか？
RQ2一貫性正則化において、現実的で強力な増幅ポリシーがランダムノイズを上回る効果を示すか？
RQ3テキスト分類において、ラベル付きデータが極めて限られた状況（例：20例）でもUDAは効果を発揮するか？
RQ4ラベル付きデータが少ない状況下でも、CIFAR-10 や SVHN といった標準ベンチマークでUDAが最先端の結果を達成できるか？
RQ5豊富なラベルなしデータを有する大規模データセット（例：ImageNet）において、UDAは効果的にスケーリングできるか？

主な発見

IMDbのテキスト分類データセットでは、UDAはたった20件のラベル付き例での学習で最先端の性能を達成し、25,000件のラベル付き例で学習したモデルを上回った。
CIFAR-10で4,000件のラベル付き例を使用した場合、UDAは誤差率を7.66％から5.27％に低下させ、相対的に31.1％の削減を達成した。
SVHNで1,000件のラベル付き例を使用した場合、UDAは誤差率を3.53％から2.46％に低下させ、相対的に30.3％の削減を達成した。
ImageNetでは、130万件の追加ラベルなし画像を用いて、トップ-1精度を78.28％から79.04％、トップ-5精度を94.36％から94.45％に向上させた。
UDAは、テストされた6つの言語処理および3つのビジョンベンチマークすべてで、すべての先行手法を上回り、広範な有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。