QUICK REVIEW

[논문 리뷰] M2M-GAN: Many-to-Many Generative Adversarial Transfer Learning for Person Re-Identification

Wenqi Liang, Guangcong Wang|arXiv (Cornell University)|2018. 11. 09.

Video Surveillance and Tracking Methods참고 문헌 19인용 수 25

한 줄 요약

이 논문은 여러 소스 및 타겟 카메라 기반 서브도메인 간의 다수에서 다수로의 이미지 번역을 공동 최적화하는 M2M-GAN을 제안한다. M2M-GAN은 생성적 적대적 훈련 프레임워크로서, 생성기 내에 서브도메인 레이블을 통합하여 개별 CycleGANs보다 성능 향상과 훈련 시간 단축을 이룬 통합적이고 파라미터 효율적인 번역을 가능하게 한다.

ABSTRACT

Cross-domain transfer learning (CDTL) is an extremely challenging task for the person re-identification (ReID). Given a source domain with annotations and a target domain without annotations, CDTL seeks an effective method to transfer the knowledge from the source domain to the target domain. However, such a simple two-domain transfer learning method is unavailable for the person ReID in that the source/target domain consists of several sub-domains, e.g., camera-based sub-domains. To address this intractable problem, we propose a novel Many-to-Many Generative Adversarial Transfer Learning method (M2M-GAN) that takes multiple source sub-domains and multiple target sub-domains into consideration and performs each sub-domain transferring mapping from the source domain to the target domain in a unified optimization process. The proposed method first translates the image styles of source sub-domains into that of target sub-domains, and then performs the supervised learning by using the transferred images and the corresponding annotations in source domain. As the gap is reduced, M2M-GAN achieves a promising result for the cross-domain person ReID. Experimental results on three benchmark datasets Market-1501, DukeMTMC-reID and MSMT17 show the effectiveness of our M2M-GAN.

연구 동기 및 목표

기존의 한 개에서 한 개로의 도메인 간 전이 학습이 소스 및 타겟 도메인 내 다수의 카메라 기반 서브도메인을 고려하지 못하는 한계를 해결한다.
다수의 카메라 간 세밀한 서브도메인 관계를 모델링하여 레이블이 없는 타겟 도메인과 레이블이 있는 소스 도메인 간의 도메인 갭을 줄인다.
M×N개의 별도의 CycleGANs를 훈련하지 않고도 파라미터 효율적이고 계산적으로 확장 가능한 다수에서 다수로의 도메인 적응 방법을 개발한다.
감독 훈련 중에 실제 소스 이미지와 GAN으로 생성된 타겟 스타일 이미지를 모두 활용하여 사람 재식별 성능을 향상시킨다.
공유된 파라미터와 서브도메인 레이블 가이던스를 사용하여 모든 소스-타겟 서브도메인 매핑을 통합 최적화한다.

제안 방법

소스 서브도메인 S_i에 대한 l_s^i, 타겟 서브도메인 T_j에 대한 l_t^j와 같은 서브도메인 레이블을 생성기의 조건부 입력으로 도입하여, 생성기가 소스 서브도메인 S_i에서 타겟 서브도메인 T_j로의 이미지 번역을 수행할 수 있도록 한다.
M×N개의 서브도메인 번역 매핑을 동시에 최적화하는 통합된 GAN 프레임워크를 설계하여, M×N개의 별도의 CycleGANs가 필요로 하지 않도록 한다.
이미지 번역의 정확성과 서브도메인 간 현실적인 스타일 전이를 보장하기 위해 사이클 일致성 손실 및 적대적 손실을 사용한다.
실제로 레이블이 부여된 소스 이미지와 GAN으로 생성된 가짜 타겟 이미지를 모두 사용하여 감독 학습과 도메인 적응을 결합한다.
모든 서브도메인 번역 작업 간에 파라미터를 공유함으로써, 쌍별 훈련 대비 모델 크기와 훈련 시간을 크게 줄인다.
적대적 훈련 과정에서 서브도메인 간 공유된 구조를 활용하여 도메인 불변 특징 학습을 통합한다.

실험 결과

연구 질문

RQ1소스 및 타겟 도메인이 각각 다수의 카메라 기반 서브도메인을 포함할 경우, 통합된 생성적 적대적 모델이 다수에서 다수로의 도메인 적응을 효과적으로 처리할 수 있는가?
RQ2GAN 생성기 내에 서브도메인 식별 정보를 통합함으로써 표준 CycleGANs에 비해 번역 품질과 후속 ReID 성능이 어떻게 향상되는가?
RQ3M×N개의 별도의 CycleGANs를 단일 통합 M2M-GAN 모델로 대체할 경우, 모델 복잡성과 성능 간의 상호 보완적 관계는 어떠한가?
RQ4실제 소스 이미지와 GAN으로 생성된 타겟 이미지를 모두 사용할 경우, 교차 도메인 환경에서 특징 학습과 ReID 정확도 향상에 얼마나 기여하는가?
RQ5MSMT17(15대의 카메라)와 같이 많은 카메라를 포함한 대규모 데이터셋에 대해 제안된 방법은 효율적으로 확장 가능한가?

주요 결과

M2M-GAN은 Market-1501, DukeMTMC-reID, MSMT17의 세 가지 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성하여, 모든 경쟁 기법보다 교차 도메인 사람 재식별에서 뛰어난 성능을 보였다.
Market-1501(6대의 카메라) 및 MSMT17(15대의 카메라)와 같은 데이터셋에 적용했을 때, M×N개의 별도의 CycleGANs에 필요한 파라미터 수의 약 1/90으로 모델 크기를 줄였다.
공동 최적화 덕분에 훈련 시간이 크게 단축되어, 별도의 M×N GAN 훈련이 계산적으로 비현실적이 되는 대규모 데이터셋에 대해서도 적용 가능해졌다.
D→MA 설정에서 감독 훈련 시 실제 소스 이미지와 GAN으로 생성된 가짜 타겟 이미지를 모두 사용함으로써 mAP가 2.8%p 향상되어 26.8에서 29.6로 상승했다. 이는 실제 데이터가 정보 복구에 기여함을 보여준다.
Market-1501 데이터셋에서 M2M-GAN은 가짜 이미지와 실제 이미지를 모두 사용했을 때 R1가 59.1%, mAP가 29.6%를 기록하여 강력한 일반화 능력과 강인성을 입증했다.
다양한 도메인 조합에 대해 잘 일반화되며, 테스트한 6개의 전이 조합 전반에서 수작업 특징 기반 방법과 이전의 교차 도메인 학습 접근법을 일관되게 능가했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.