QUICK REVIEW

[논문 리뷰] Jointly Optimize Data Augmentation and Network Training: Adversarial Data Augmentation in Human Pose Estimation

Xi Peng, Zhiqiang Tang|arXiv (Cornell University)|2018. 05. 24.

Human Pose and Action Recognition참고 문헌 34인용 수 42

한 줄 요약

이 연구는 pose estimation 네트워크와 함께 공동으로 학습되도록 데이터를 증강하는 적대적 증강 네트워크를 도입하여 MPII와 LSP에서 추가 데이터 없이 정확도를 향상시킨다.

ABSTRACT

Random data augmentation is a critical technique to avoid overfitting in training deep neural network models. However, data augmentation and network training are usually treated as two isolated processes, limiting the effectiveness of network training. Why not jointly optimize the two? We propose adversarial data augmentation to address this limitation. The main idea is to design an augmentation network (generator) that competes against a target network (discriminator) by generating `hard' augmentation operations online. The augmentation network explores the weaknesses of the target network, while the latter learns from `hard' augmentations to achieve better performance. We also design a reward/penalty strategy for effective joint training. We demonstrate our approach on the problem of human pose estimation and carry out a comprehensive experimental analysis, showing that our method can significantly improve state-of-the-art models without additional data efforts.

연구 동기 및 목표

데이터 증강과 네트워크 학습 간의 분리를 다루려는 동기를 제시한다.
입력 이미지와 현재 모델 상태에 조건부로 적대적 온라인 증강을 생성하는 증강 네트워크를 제안한다.
증강 네트워크를 업데이트하기 위한 보상/벌점 메커니즘을 갖춘 공동 학습을 가능하게 한다.
기존 아키텍처를 사용하여 MPII 및 LSP에서 자세 추정 성능이 향상됨을 입증한다.
적대적 증강이 학습에 어떻게 영향을 미치는지에 대한 차등실험 및 통찰을 제공한다.

제안 방법

포즈 네트워크 D의 손실을 최대화하도록 증강 연산의 분포를 출력하는 증강 네트워크 G를 도입한다.
D를 적대적 증강으로부터 학습하고 보상/벌점 체계를 통해 피드백을 제공하는 판별기로 모델링한다.
KL-발산을 사용하여 크기/회전 빈에 대한 실제 분포를 추정해 ASR(Adversarial Scaling and Rotating)을 사전 학습한다.
AHO(Adversarial Hierarchical Occluding)를 4x4 피처 마스크 위의 분포를 학습하고 계층적 폐색을 적용하여 사전 학습한다.
D를 무작위 증강보다 더 악화시키는 증강을 강화하는 보상/벌점 업데이트 규칙으로 G와 D를 공동 학습한다.
훈련 안정성을 관리하기 위해 미니배치 내에서 ASR와 AHO를 단계적이고 교대로 적용한다.

실험 결과

연구 질문

RQ1데이터 증강과 네트워크 학습을 적대적 증강 네트워크를 통해 공동 최적화하면 표준 임의 증강보다 자세 추정 성능이 향상될 수 있는가?
RQ2제한된 데이터셋에서 적대적 스케일링, 회전, 계층적 폐색 증강이 포즈 추정 모델의 학습에 더 효과적인가?
RQ3중간 피처 및 학습 상태에 따라 증강을 조건화하는 것이 효율성과 수렴에 도움이 되는가?
RQ4ASR와 AHO가 각각 및 함께 MPII 및 LSP 벤치마크에 어떤 영향을 미치는가?

주요 결과

적대적 데이터 증강(ASR 및 AHO)은 임의 증강보다 잔여 및 밀집 Hourglass 네트워크 모두에서 자세 추정 정확도를 향상시킨다.
ASR는 두 네트워크 유형 모두에서 키포켓의 PCKh@0.5 평균 향상을 약 0.5 포인트程度 제공한다.
AHO는 PCKh@0.5에서 유사한 평균 향상(약 0.4 포인트)을 제공한다.
ASR과 AHO를 함께 사용하면 단독 방법보다 추가 이득이 있으며 발목, 무릎, 손목과 같은 어려운 관절의 개선이 두드러진다.
8-stack Stacked Hourglass 네트워크에 적용했을 때 적대적 증강은 MPII 테스트 세트에서 PCKh@0.5의 최첨단 성능을 달성하고 LSP에서 PCK@0.2로 베이스라인을 상회한다.
밀집 Hourglass 모델은 잔여 버전에 비해 매개변수가 현저히 적어도 비슷한 정확도를 제공하여 효율성을 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.