QUICK REVIEW

[論文レビュー] Improving Deep Learning using Generic Data Augmentation

Luke Taylor, Geoff Nitschke|arXiv (Cornell University)|Aug 20, 2017

Machine Learning and Data Classification被引用数 159

ひとこと要約

この論文は Caltech101 上で単純な CNN を用いて 7 つの汎用データ拡張手法（幾何学的および写真度）を比較評価し、クロップが最大の Top-1 増分を生み、写真度手法は小さな改善を提供する、という内容です。

ABSTRACT

Deep artificial neural networks require a large corpus of training data in order to effectively learn, where collection of such training data is often expensive and laborious. Data augmentation overcomes this issue by artificially inflating the training set with label preserving transformations. Recently there has been extensive use of generic data augmentation to improve Convolutional Neural Network (CNN) task performance. This study benchmarks various popular data augmentation schemes to allow researchers to make informed decisions as to which training methods are most appropriate for their data sets. Various geometric and photometric schemes are evaluated on a coarse-grained data set using a relatively simple CNN. Experimental results, run using 4-fold cross-validation and reported in terms of Top-1 and Top-5 accuracy, indicate that cropping in geometric augmentation significantly increases CNN task performance.

研究の動機と目的

共通の汎用データ拡張手法が coarse なデータセットで CNN の性能に与える影響を評価する。
幾何学的手法と写真的手法のどちらがより安定した改善をもたらすかを特定する。
小〜中規模データセットで過学習を抑制するための拡張技術の選択に関する経験的指針を提供する。

提案手法

拡張なし、反転、回転、クロッピング、カラージッタリング、エッジ強調、ファンシー PCA の 7 種類のデータ拡張手法を評価する。
ReLU、Xavier 初期化、Nesterov を用いた SGD、L2 正則化など、特定のハイパーパラメータを持つ 5 層可訓練 CNN アーキテクチャを使用する。
Caltech101 で 4 折クロスバリデーションを用いて学習を行い、Top-1 および Top-5 の精度と標準偏差を報告する。
拡張前に画像を 256x256 にリサイズし、中央パディングを適用し、画素を [0,1] に正規化する。
幾何学的拡張と写真的拡張を比較し、どちらのカテゴリーがより大きな性能向上をもたらすかを判断する。

実験結果

リサーチクエスチョン

RQ1Caltech101 のような coarse なデータセットに対して、どの汎用データ拡張手法が最も CNN の性能を改善するか。
RQ2幾何学的変換は写真的変換よりもこの文脈で優れているか。
RQ3どの単一の拡張が最も大きな Top-1 および Top-5 の増加をもたらすか。
RQ4拡張は小〜中規模データセットのモデルの一般化と過学習にどのような影響を与えるか。

主な発見

手法	Top-1	Top-5
ベースライン	48.13 ± 0.42%	64.50 ± 0.65%
反転	49.73 ± 1.13%	67.36 ± 1.38%
回転	50.80 ± 0.63%	69.41 ± 0.48%
クロッピング	61.95 ± 1.01%	79.10 ± 0.80%
カラージッタリング	49.57 ± 0.53%	67.18 ± 0.42%
エッジ強調	49.29 ± 1.16%	66.49 ± 0.84%
ファンシー PCA	49.41 ± 0.84%	67.54 ± 1.01%

クロッピングは最大の Top-1 改善をもたらす（ベースライン 48.13% に対して 61.95%）。
幾何学的拡張は概ね写真的拡張よりも Top-1 および Top-5 で優れている。
回転と反転はベースラインより顕著な利得を提供するが、クロッピングが全体として最も強力。
写真的手法は穏やかな改善を示し、カラージッタリングとファンシー PCA はクロッピングと比べて Top-1/Top-5 の増加が小さい。
すべての拡張手法は拡張なしよりも改善を示し、標準偏差は交差検証の安定性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。