Skip to main content
QUICK REVIEW

[論文レビュー] CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

Sangdoo Yun, Dongyoon Han|arXiv (Cornell University)|May 13, 2019
Advanced Neural Network Applications参考文献 51被引用数 613
ひとこと要約

CutMixは、訓練画像のパッチを別の画像のパッチと置き換え、領域に比例してラベルを混合することで、分類と局在化を最小限のオーバーヘッドで改善します。

ABSTRACT

Regional dropout strategies have been proposed to enhance the performance of convolutional neural network classifiers. They have proved to be effective for guiding the model to attend on less discriminative parts of objects (e.g. leg as opposed to head of a person), thereby letting the network generalize better and have better object localization capabilities. On the other hand, current methods for regional dropout remove informative pixels on training images by overlaying a patch of either black pixels or random noise. Such removal is not desirable because it leads to information loss and inefficiency during training. We therefore propose the CutMix augmentation strategy: patches are cut and pasted among training images where the ground truth labels are also mixed proportionally to the area of the patches. By making efficient use of training pixels and retaining the regularization effect of regional dropout, CutMix consistently outperforms the state-of-the-art augmentation strategies on CIFAR and ImageNet classification tasks, as well as on the ImageNet weakly-supervised localization task. Moreover, unlike previous augmentation methods, our CutMix-trained ImageNet classifier, when used as a pretrained model, results in consistent performance gains in Pascal detection and MS-COCO image captioning benchmarks. We also show that CutMix improves the model robustness against input corruptions and its out-of-distribution detection performances. Source code and pretrained models are available at https://github.com/clovaai/CutMix-PyTorch .

研究の動機と目的

  • 地域的なドロップアウトベースの正則化を通じてCNNの汎化と局在化を改善する動機付け。
  • 情報量の多いピクセルを保持しつつ、部分的なオブジェクト視認から学習を可能にするデータ拡張を開発する。
  • CutMixの有効性を画像分類、弱教師付き局在化、転移学習タスクで実証する。
  • 他の拡張法と比較してCutMixがロバスト性と不確実性の利点を提供することを示す。

提案手法

  • 2つの訓練画像をバイナリマスクと混合ラベルを用いて組み合わせて新しいサンプルを生成する。
  • 混合比λをBeta(α, α)分布からサンプルする(実験ではα=1)。
  • 1つの画像から領域を切り取り、別の画像の矩形境界ボックス内に貼り付け、面積は1-λに比例させる。
  • CutMixed画像と混合ラベルを元の損失関数で学習する。
  • 入力画像レベルでのCutMixや高次の特徴レベルでの適用(アブレーション研究)を任意で実施。
  • 標準的な拡張以外の追加計算オーバーヘッドを伴わず、トレーニングコストを最小限に保つ。

実験結果

リサーチクエスチョン

  • RQ1CutMixはImageNetのような大規模データセットでMixupやCutoutと比較して分類精度を改善するか?
  • RQ2CutMixはより広い物体領域への注意を促すことで弱教師付き局在化を強化するか?
  • RQ3CutMixで事前学習したモデルは物体検出や画像キャプション生成などの下流タスクへより良く転用できるか?
  • RQ4CutMixは対抗的攻撃やOOD条件下でのロバスト性と校正/不確実性処理を向上させるか?

主な発見

  • ImageNet: CutMixはトップ1精度を+2.28%向上(ResNet-50)と+1.70%(ResNet-101)をベースラインより改善。
  • CIFAR-100: CutMixはPyramidNet-200のベースライン16.45%に対してトップ1誤差を14.47%の最先端を達成し、MixupとCutoutに対して顕著な向上。
  • 弱教師付き局在化: CutMixはImageNetでWSOL精度を+5.4ポイント、ImageNet局在化で+0.9を改善し、CUB200-2011でも大幅な利益。
  • 転移学習: CutMixで事前学習したモデルは下流タスクで改善をもたらす。Pascal VOC物体検出(SSD/Faster R-CNN)とMS-COCO画像キャプションで、CutMix前提のバックボーンが測定可能な向上を提供。
  • ロバストネス/不確実性: CutMixは敵対的攻撃に対するロバスト性を大幅に向上させ(攻撃後の精度が高い)、MixupおよびCutoutと比べてOOD検出指標を改善。過信傾向も低減。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。