QUICK REVIEW

[논문 리뷰] Joint Discriminative and Generative Learning for Person Re-identification

Zhedong Zheng, Xiaodong Yang|arXiv (Cornell University)|2019. 04. 15.

Video Surveillance and Tracking Methods참고 문헌 55인용 수 86

한 줄 요약

DG-Net은 구별 가능한 re-id 임베딩과 appearance과 구조 코드를 교환하는 생성 모델을 함께 학습하여 서로 다른 신원 간 및 같은 신원 내 이미지를 생성하고, 여러 벤치마크에서 최첨단 결과를 달성합니다. 이 프레임워크는 엔드-투-엔드 루프에서 appearance 인코더와 re-id 학습을 지속적으로 개선하기 위해 온라인으로 생성된 데이터를 사용합니다.

ABSTRACT

Person re-identification (re-id) remains challenging due to significant intra-class variations across different cameras. Recently, there has been a growing interest in using generative models to augment training data and enhance the invariance to input changes. The generative pipelines in existing methods, however, stay relatively separate from the discriminative re-id learning stages. Accordingly, re-id models are often trained in a straightforward manner on the generated data. In this paper, we seek to improve learned re-id embeddings by better leveraging the generated data. To this end, we propose a joint learning framework that couples re-id learning and data generation end-to-end. Our model involves a generative module that separately encodes each person into an appearance code and a structure code, and a discriminative module that shares the appearance encoder with the generative module. By switching the appearance or structure codes, the generative module is able to generate high-quality cross-id composed images, which are online fed back to the appearance encoder and used to improve the discriminative module. The proposed joint learning framework renders significant improvement over the baseline without using generated data, leading to the state-of-the-art performance on several benchmark datasets.

연구 동기 및 목표

생성된 데이터를 활용하여 사람 re-id의 intra-class 변 variation을 줄인다.
단일 네트워크에서 판별적 학습과 생성적 학습을 엔드-투-엔드 최적화로 결합한다.
제어 가능한 이미지 생성을 가능하게 하는 디 disentangled appearance 및 structure 코드를 학습한다.
온라인으로 합성된 이미지로 appearance 인코더의 re-id 임베딩을 개선한다.

제안 방법

appearance 인코더 Ea, structure 인코더 Es, 디코더 G, 판별기 D로 구성된 생성 모듈이 appearance 코드와 structure 코드를 교환하여 이미지를 생성한다.
두 가지 생성 전략: 자기 신원 생성(self-identity generation)은 같은 신원의 다른 이미지로부터 자신을 재구성하고 또 다른 이미지로부터 재구성하며, 교차 신원 생성(cross-identity generation)은 한 appearance 코드와 다른 structure 코드로 이미지를 생성한다.
잠재코드 감독은 appearance 및 structure 재구성, 픽셀 단위 L1 이미지 재구성 손실, 일관성을 강제하는 잠재 코드 재구성을 포함한다.
교차 신원 생성은 appearance-code 기반 신원 감독과 적대적 손실(adversarial loss)을 포함하여 합성 데이터가 실제 데이터 분포에 맞춰 정렬되도록 한다.
판별 모듈은 Ea를 백본으로 공유하고, 1차 특징 학습과 미세한 특징 채굴을 위한 두 개의 헤드를 가지며, 교사 모델로부터 동적으로 라벨링된 합성 샘플에 의해 안내된다.
최적화는 이미지 및 코드 재구성 손실, 신원 손실, 적대적 손실, 그리고 두 가지 판별 손실을 결합하며, 학습 안정화를 위해 신중하게 가중치를 조정한다.

실험 결과

연구 질문

RQ1판별적 학습과 생성적 학습의 엔드-투-엔드 결합이 생성 데이터의 과연 작업 관련성을 높여 re-id 성능을 향상시킬 수 있는가?
RQ2디 disentangled appearance 및 structure 코드가 re-id 학습을 위한 intra- 및 cross-identity 변이를 포괄하는 제어 가능한 생성을 가능하게 하는가?
RQ3온라인으로 합성된 cross-id 이미지의 appearance 인코더에 대한 피드백이 일관되게 re-id 임베딩의 품질을 향상시키는가?
RQ4생성 데이터를 사용할 때 주요 특징 학습 및 미세 특징 채굴의 영향은 re-id 정확도에 어떤 차이를 남기는가?

주요 결과

제안된 DG-Net은 벤치마크 데이터셋에서 최첨단 re-id 성능을 달성하며 기준선 및 경쟁 방법들을 능가한다.
Appearance 또는 structure 코드를 교환하는 생성된 이미지는 현실적이고 다양하며, 온라인 피드백이나 아이덴티티 감독 없이는 품질이 떨어진다는 것을 각인 연구로 확인된다.
합성 데이터를 활용한 1차 특징 학습과 미세 특징 채굴의 이중 판별 전략은 기준선 re-id 모델에 비해 상당한 이득을 가져온다.
온라인으로 생성된 데이터를 사용하는 엔드-투-엔드 공동 학습은 오프라인으로 생성된 샘플만으로 학습하는 것보다 더 큰 개선을 제공한다.
정량적 결과는 Market-1501, DukeMTMC-reID, MSMT17에서 Rank@1 및 mAP의 현저한 향상을 보여주며, DG-Net는 포스트 프로세싱 없이도 선도 점수를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.