QUICK REVIEW

[논문 리뷰] Hide-and-Seek: A Data Augmentation Technique for Weakly-Supervised Localization and Beyond

Krishna Kumar Singh, Hao Yu|arXiv (Cornell University)|2018. 11. 06.

Human Pose and Action Recognition참고 문헌 37인용 수 68

한 줄 요약

Hide-and-Seek는 훈련 중 임의의 이미지 패치를 숨겨 네트워크가 여러 객체 부위를 학습하도록 강제하여 약하게 지도된 Localization을 개선하고 다양한 비전 태스크에 일반화시키며 아키텍처를 변경하지 않습니다.

ABSTRACT

We propose 'Hide-and-Seek' a general purpose data augmentation technique, which is complementary to existing data augmentation techniques and is beneficial for various visual recognition tasks. The key idea is to hide patches in a training image randomly, in order to force the network to seek other relevant content when the most discriminative content is hidden. Our approach only needs to modify the input image and can work with any network to improve its performance. During testing, it does not need to hide any patches. The main advantage of Hide-and-Seek over existing data augmentation techniques is its ability to improve object localization accuracy in the weakly-supervised setting, and we therefore use this task to motivate the approach. However, Hide-and-Seek is not tied only to the image localization task, and can generalize to other forms of visual input like videos, as well as other recognition tasks like image classification, temporal action localization, semantic segmentation, emotion recognition, age/gender estimation, and person re-identification. We perform extensive experiments to showcase the advantage of Hide-and-Seek on these various visual recognition problems.

연구 동기 및 목표

일반-purpose 데이터 증강 기법을 기존 방법과 보완적으로 도입한다.
추가 주석 없이 약하게 지도된 설정에서 객체 로컬라이제이션을 개선한다.
여러 태스크와 아키텍처에 걸친 방법의 적용 가능성을 보여준다.

제안 방법

각 학습 이미지를 S×S 패치 격자로 나눈 후 훈련 중 각 패치를 확률 p_hide로 숨깁니다.
숨겨진 픽셀 값을 데이터셋의 평균으로 설정하여 학습 및 테스트 활성화 분포를 정렬합니다.
CNN(AlexNet, GoogLeNet 등) 전반에 이 기술을 적용하고 로컬라이제이션을 위해 CAM/GAP를 사용합니다.
훈련 중 프레임 구간을 숨겨 비디오에서도 타임스러운 동작 로컬라이제이션에 적용합니다.
약하게 지도된 객체 로컬라이제이션, 의미론적 분할, 타임럴 액션 로컬라이제이션 등 다양한 태스크를 평가합니다.

실험 결과

연구 질문

RQ1훈련 중 임의 패치 숨김이 표준 증강보다 로컬라이제이션을 향상시킬 수 있는가?
RQ2Hide-and-Seek가 여러 아키텍처와 비전 태스크에서 효과적인가?
RQ3훈련-테스트 분포 차이를 최소화하기 위해 숨겨진 패치 값을 어떻게 설정해야 하는가?
RQ4이미지에서 비디오로 확장하여 시간적 로컬라이제이션이 가능한가?
RQ5패치 크기와 가변성이 성능에 어떤 영향을 미치는가?

주요 결과

방법	GT-known Loc	Top-1 Loc
AlexNet-GAP (baseline)	54.90	36.25
AlexNet-HaS-16	57.86	36.77
AlexNet-HaS-32	58.75	37.33
AlexNet-HaS-44	58.55	37.54
AlexNet-HaS-56	58.43	37.34
AlexNet-HaS-Mixed	58.68	37.65
GoogLeNet-GAP (baseline)	58.41	43.60
GoogLeNet-HaS-16	59.83	44.62
GoogLeNet-HaS-32	60.29	45.21
GoogLeNet-HaS-44	60.11	44.75
GoogLeNet-HaS-56	59.93	44.78

기본선 대비 ILSVRC 2016에서 GT-known Loc 및 Top-1 Loc에서 여러 패치 크기로도 로컬라이제이션이 크게 향상되었습니다.
GoogLeNet-GAP 대비 GoogLeNet-HaS가 모든 테스트된 패치 크기에서 로컬라이제이션 지표면에서 우수한 성능을 보였습니다.
AlexNet-HaS와 GoogLeNet-HaS는 전체 이미지 기준선에 비해 로컬라이제이션 지표에서 몇 포인트의 개선을 달성했습니다.
혼합 크기 HaS 변형(HaS-Mixed)이 AlexNet에서 Top-1 Loc를 가장 잘 유지했습니다.
Hide-and-Seek는 로컬라이제이션 이외의 태스크에서도 이미지 분류, 의미론적 분할, 감정 인식, 재식별 등 다양한 태스크의 성능을 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.