QUICK REVIEW

[論文レビュー] Jointly Optimize Data Augmentation and Network Training: Adversarial Data Augmentation in Human Pose Estimation

Xi Peng, Zhiqiang Tang|arXiv (Cornell University)|May 24, 2018

Human Pose and Action Recognition参考文献 34被引用数 42

ひとこと要約

この論文はデータ拡張を対抗的に生成する augmentation network を導入し、姿勢推定ネットワークと jointly training することで MPII と LSP で追加データなしで精度を向上させる。

ABSTRACT

Random data augmentation is a critical technique to avoid overfitting in training deep neural network models. However, data augmentation and network training are usually treated as two isolated processes, limiting the effectiveness of network training. Why not jointly optimize the two? We propose adversarial data augmentation to address this limitation. The main idea is to design an augmentation network (generator) that competes against a target network (discriminator) by generating `hard' augmentation operations online. The augmentation network explores the weaknesses of the target network, while the latter learns from `hard' augmentations to achieve better performance. We also design a reward/penalty strategy for effective joint training. We demonstrate our approach on the problem of human pose estimation and carry out a comprehensive experimental analysis, showing that our method can significantly improve state-of-the-art models without additional data efforts.

研究の動機と目的

データ拡張とネットワーク訓練の分離の問題に取り組む動機付け。
入力画像と現在のモデル状態に条件付けられた対抗的なオンライン拡張を生成する augmentation network の提案。
拡張ネットワークを更新するための報酬/ペナルティ機構を用いた共同訓練を可能にする。
既存のアーキテクチャを用いて MPII と LSP で姿勢推定性能の改善を実証。
対抗的拡張が学習に与える影響についてのアブレーションと洞察を提供。

提案手法

拡張操作の分布を出力して姿勢ネットワーク D の損失を最大化する G を導入。
拡張によって学習するディスクリミネータとして D をモデル化し、報酬/ペナルティ方式でフィードバックを提供。
ASR (Adversarial Scaling and Rotating) を事前訓練し、KLダイバージェンスを用いてスケール/回転ビンの真の分布を推定。
AHO (Adversarial Hierarchical Occluding) を事前訓練し、4x4 の特徴マスクの分布を学習し階層的オクルージョンを適用。
G と D を報酬/ペナルティ更新ルールで joint training し、D を劣化させる拡張の方をランダム拡張より強化する。
mini-batch 内を段階的に交互に ASR と AHO を適用して訓練の安定性を管理。

実験結果

リサーチクエスチョン

RQ1対抗的拡張ネットワークによるデータ拡張とネットワーク訓練の共同最適化は、標準的なランダム拡張より姿勢推定性能を改善するか？
RQ2対抗的スケーリング、回転、および階層的オクルージョニング拡張は、限られたデータセット上で姿勢推定器の学習を改善するか？
RQ3中間特徴と訓練状況に拡張を条件付けることは、効率と収束を改善するか？
RQ4MPII と LSP のベンチマークにおける ASR と AHO の個別および組み合わせの影響は？

主な発見

対抗的データ拡張（ASR と AHO）は、残差ネットワークと密な hourglass ネットワークの両方でランダム拡張より姿勢推定精度を向上させる。
ASR は、両方のネットワークタイプで keypoints ごとの PCKh@0.5 の平均的改善を約 0.5 ポイント達成。
AHO は同様の平均改善 (~0.4 ポイント) を PCKh@0.5 で達成。
ASR と AHO の両方を用いると、いずれか一方だけより追加の利得があり、特に足首、膝、手首などの難しい関節で改善。
8-stack Stacked Hourglass ネットワークに適用すると、対抗拡張は MPII テストセットで PCKh@0.5 の最先端を達成し、LSP では PCK@0.2 でベースラインを上回る。
Dense Hourglass モデルは、残差バリアントに比べてはるかに少ないパラメータで同等の精度を提供し、効率を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。