[論文レビュー] Hide-and-Seek: A Data Augmentation Technique for Weakly-Supervised Localization and Beyond
Hide-and-Seekは訓練中にランダムな画像パッチを隠すことでネットワークに複数の物体部位を学習させ、弱監視型局在の改善とアーキテクチャを変更せずにさまざまな視覚タスクへ一般化します。
We propose 'Hide-and-Seek' a general purpose data augmentation technique, which is complementary to existing data augmentation techniques and is beneficial for various visual recognition tasks. The key idea is to hide patches in a training image randomly, in order to force the network to seek other relevant content when the most discriminative content is hidden. Our approach only needs to modify the input image and can work with any network to improve its performance. During testing, it does not need to hide any patches. The main advantage of Hide-and-Seek over existing data augmentation techniques is its ability to improve object localization accuracy in the weakly-supervised setting, and we therefore use this task to motivate the approach. However, Hide-and-Seek is not tied only to the image localization task, and can generalize to other forms of visual input like videos, as well as other recognition tasks like image classification, temporal action localization, semantic segmentation, emotion recognition, age/gender estimation, and person re-identification. We perform extensive experiments to showcase the advantage of Hide-and-Seek on these various visual recognition problems.
研究の動機と目的
- 既存の手法を補完する汎用的なデータ拡張手法を導入する。
- 追加の注釈なしに弱監視設定での物体局在を改善する。
- この方法の複数のタスクとアーキテクチャへの適用性を示す。
提案手法
- 各訓練画像をS×Sパッチグリッドに分割し、訓練時に確率p_hideで各パッチを隠す。
- 訓練とテストの活性化分布を揃えるため、隠されたピクセル値をデータセットの平均に設定する。
- CNN(例: AlexNet、GoogLeNet)に本手法を適用し、局在にはCAM/GAPを使用する。
- フレームの断片を訓練中に隠すことで動画にも拡張し、時間的アクション局在を実現する。
- 弱監視型物体局在、意味セグメンテーション、時間的アクション局在などを含むタスクで評価する。
実験結果
リサーチクエスチョン
- RQ1訓練時のランダムパッチ隠蔽は標準的な拡張を超えて局在を改善できるか?
- RQ2Hide-and-Seekは複数のアーキテクチャと視覚タスクで効果的か?
- RQ3学習–テストの分布ミスマッチを最小化するために隠されたパッチ値はどう設定すべきか?
- RQ4画像から動画への拡張は時系列局在に有効か?
- RQ5パッチサイズと可変性が性能に与える影響は?
主な発見
| 手法 | GT-known Loc | Top-1 Loc |
|---|---|---|
| AlexNet-GAP (baseline) | 54.90 | 36.25 |
| AlexNet-HaS-16 | 57.86 | 36.77 |
| AlexNet-HaS-32 | 58.75 | 37.33 |
| AlexNet-HaS-44 | 58.55 | 37.54 |
| AlexNet-HaS-56 | 58.43 | 37.34 |
| AlexNet-HaS-Mixed | 58.68 | 37.65 |
| GoogLeNet-GAP (baseline) | 58.41 | 43.60 |
| GoogLeNet-HaS-16 | 59.83 | 44.62 |
| GoogLeNet-HaS-32 | 60.29 | 45.21 |
| GoogLeNet-HaS-44 | 60.11 | 44.75 |
| GoogLeNet-HaS-56 | 59.93 | 44.78 |
- 本手法はI LS VRC 2016におけるGT-known LocおよびTop-1 Locで、複数のパッチサイズに対してベースラインを大幅に上回る局在ゲインを達成。
- GoogLeNet-GAPに対して、すべてのテスト済みパッチサイズでGoogLeNet-HaSが局在指標で上回る。
- AlexNet-HaSおよびGoogLeNet-HaSは、フル画像ベースラインと比較して局在指標で数ポイントの改善を達成。
- 混合サイズのHaS変種(HaS-Mixed)はAlexNetでTop-1 Locが最も良い。
- Hide-and-Seekは局在だけでなく、画像分類、意味セグメンテーション、感情認識、再識別など多様なタスクの性能向上に寄与。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。