[논문 리뷰] Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
MSMT17를 소개하는 대규모 다중 장면/다중 시간 데이터셋으로 사람 재식별(ReID)을 위한 것이며, PTGAN은 데이터셋 간 도메인 간극을 다리면서 정체성을 보존하는 GAN 기반 방법이다.
Although the performance of person Re-Identification (ReID) has been significantly boosted, many challenging issues in real scenarios have not been fully investigated, e.g., the complex scenes and lighting variations, viewpoint and pose changes, and the large number of identities in a camera network. To facilitate the research towards conquering those issues, this paper contributes a new dataset called MSMT17 with many important features, e.g., 1) the raw videos are taken by an 15-camera network deployed in both indoor and outdoor scenes, 2) the videos cover a long period of time and present complex lighting variations, and 3) it contains currently the largest number of annotated identities, i.e., 4,101 identities and 126,441 bounding boxes. We also observe that, domain gap commonly exists between datasets, which essentially causes severe performance drop when training and testing on different datasets. This results in that available training data cannot be effectively leveraged for new testing domains. To relieve the expensive costs of annotating new training samples, we propose a Person Transfer Generative Adversarial Network (PTGAN) to bridge the domain gap. Comprehensive experiments show that the domain gap could be substantially narrowed-down by the PTGAN.
연구 동기 및 목표
- varied scenes, times, and lighting에서 사람 ReID를 위한 도전적이고 현실적인 대규모 데이터셋(MSMT17)을 생성한다.
- ReID 데이터셋 간의 도메인 간극을 해결하여 광범위한 라벨링 없이 교차 도메인 학습을 개선한다.
- 정체성 보존과 스타일 전이의 채택으로 데이터셋 간의 사람을 이전시키는 PTGAN을 제안한다.
- PTGAN이 도메인 간 간극을 줄이고 교차 데이터셐 학습 전략을 가능하게 하는 효과를 평가한다.
제안 방법
- Cycle-GAN 기반의 unpaired 이미지-투-이미지 전이 프레임워크에 identity 제약을 추가한 PTGAN를 제안한다.
- 스타일 손실(GAN + 사이클 일관성)을 사용하여 데이터셋 A와 B 간의 스타일을 매핑하고 사이클 일관성을 강제한다.
- 전경 마스크 M과 PSPNet 기반 분할을 이용한 전경 인식 손실을 도입하여 전이 중 전경 사람의 정체성을 보존한다.
- L2 전경 충실도 항과 함께 두 도메인의 판별기로 적대적 손실을 사용하고 lambda 매개변수로 스타일과 정체성의 균형을 맞춘다.
- PTGAN은 대상 데이터셋에 라벨링이 필요하지 않으며 정체성을 유지하는 고품질의 이전 샘플을 생성할 수 있음을 입증한다.
실험 결과
연구 질문
- RQ1생성적 전이 모델이 전경을 타깃 도메인처럼 보이도록 재스타일링하여 사람 ReID 데이터셋 간의 도메인 간극을 줄일 수 있는가?
- RQ2전이 중 사람의 정체성을 보존하는 것이 대상 도메인에 라벨이 없어도 ReID의 교차 데이터셈 학습을 가능하게 하는가?
- RQ3PTGAN 생성 샘플을 사용할 때 단일 소스 도메인 데이터보다 교차 도메인 학습 성능이 얼마나 개선될 수 있는가?
주요 결과
| Method | mAP | R-1 | R-5 | R-10 | R-20 |
|---|---|---|---|---|---|
| GoogLeNet (baseline) | 23.0 | 47.6 | 65.0 | 71.8 | 78.2 |
| PDC | 29.7 | 58.0 | 73.6 | 79.4 | 84.5 |
| GLAD | 34.0 | 61.4 | 76.8 | 81.6 | 85.9 |
- MSMT17은 4,101명의 정체성과 15대 카메라에 걸친 126,441개의 바운딩 박스를 가진 크고 도전적인 ReID 데이터셋이다.
- PTGAN은 교차 데이터셋 도메인 간 간극을 상당히 좁히고 교차 도메인 ReID 성능을 향상시킨다.
- PTGAN으로 이전되거나 보강된 학습 데이터는 대상 데이터에 라벨이 없어도 타깃 데이터셋에서 Rank-1 성능의 유의미한 향상을 가져온다.
- MSMT17에서 Duke, Market, CUHK03에서 MSMT17로의 전이 시 Rank-1이 3.7–6.8 포인트 증가한다(예: Duke에서 MSMT17로).
- 여러 소스로부터의 전이 샘플들을 합치면 단일 소스 전이보다 추가 이점을 얻을 수 있다.
- 전이된 데이터는 MSMT17 자체 주석 데이터의 일부에 해당하는 정도로 전이될 수 있어 라벨링 비용을 절감할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.