[논문 리뷰] Unsupervised Person Re-identification by Soft Multilabel Learning
논문은 MAR을 소개합니다. 이는 보조 참조 인물을 사용하여 라벨이 없는 대상 데이터에 대해 소프트 멀티레이블 표현을 학습하고, 소프트 멀티레이블 가이드 하드 네거티브 마이닝 및 뷰 간 일관성을 통해 Market-1501 및 DukeMTMC-reID에서 최첨단 비지도 RE-ID를 달성합니다.
Although unsupervised person re-identification (RE-ID) has drawn increasing research attentions due to its potential to address the scalability problem of supervised RE-ID models, it is very challenging to learn discriminative information in the absence of pairwise labels across disjoint camera views. To overcome this problem, we propose a deep model for the soft multilabel learning for unsupervised RE-ID. The idea is to learn a soft multilabel (real-valued label likelihood vector) for each unlabeled person by comparing (and representing) the unlabeled person with a set of known reference persons from an auxiliary domain. We propose the soft multilabel-guided hard negative mining to learn a discriminative embedding for the unlabeled target domain by exploring the similarity consistency of the visual features and the soft multilabels of unlabeled target pairs. Since most target pairs are cross-view pairs, we develop the cross-view consistent soft multilabel learning to achieve the learning goal that the soft multilabels are consistently good across different camera views. To enable effecient soft multilabel learning, we introduce the reference agent learning to represent each reference person by a reference agent in a joint embedding. We evaluate our unified deep model on Market-1501 and DukeMTMC-reID. Our model outperforms the state-of-the-art unsupervised RE-ID methods by clear margins. Code is available at https://github.com/KovenYu/MAR.
연구 동기 및 목표
- RE-ID의 확장성을 대상 라벨 제거와 보조 라벨이 있는 데이터세트를 활용하여 해결한다.
- 참조 에이전트를 통해 비라벨 대상 이미지에 대한 소프트하고 실수(real-valued) 멀티레이블 표현을 학습한다.
- 소프트 멀티레이블 학습, 소프트 레이블 가이드 마이닝, 교차 도메인 정렬을 결합한 단일 통합 딥 모델(MAR)을 개발한다.
- 카메라 뷰 간 소프트 멀티레이블의 교차 뷰 일관성을 확보하여 교차 뷰 매칭을 개선한다.
제안 방법
- soft_multilabel y를 y^(k) = exp(a_k^T f(x)) / sum_i exp(a_i^T f(x))와 함께 l(f(x), {a_i})를 사용해 참조-인물 가능도의 정규화 벡터로 정의한다.
- 특징 유사도와 소프트 멀티레이블 합의 A(y_i, y_j) = sum_k min(y_i^(k), y_j^(k))를 기반으로 쌍을 P/N로 분류하여 소프트 멀티레이블 가이드 하드 네거티브 마이닝을 수행한다.
- 2-Wasserstein 거리의 단순화를 통해 카메라 뷰 간 소프트 멀티레이블 분포를 정렬하기 위한 cross-view 일관 소프트 멀티레이블 학습 손실 L_CML를 도입한다.
- 참조 에이전트 {a_i}를 사용해 참조 인물을 간결하게 표현하고 보조 데이터를 정렬하기 위한 에이전트 학습 손실 L_AL를 정의하며, L_RAJ를 통한 교차 도메인 잘못 정렬 보정을 포함한다.
- L_MDL + λ1 L_CML + λ2 L_RAL로 MAR을 학습시키며, L_MDL은 소프트 멀티레이블 가이딩 마이닝을 통한 구분 가능한 임베딩을 강제한다.
- 테스트 시 probe-gallery 쌍에 대해 코사인 유사도를 계산하여 평가한다.
실험 결과
연구 질문
- RQ1보조 참조 집합에서 학습된 소프트하고 실수값의 멀티레이블이 대상 도메인에서의 비지도 RE-ID를 어떻게 향상시킬 수 있는가?
- RQ2소프트 멀티레이블 가이드 하드 네거티브 마이닝과 교차 뷰 일관성이 대상 라벨 없이 구별 가능한 임베딩 학습을 개선할 수 있는가?
- RQ3참조 에이전트가 보조 데이터와 대상 데이터 간의 효율적이고 강건한 교차 도메인 학습을 가능하게 하는가?
- RQ4MAR를 이용해 표준 비지도 RE-ID 벤치마크(Market-1501, DukeMTMC-reID)에서 어떤 성능 향상이 가능한가?
주요 결과
| 방법 | Market-1501 랭크-1 | Market-1501 랭크-5 | Market-1501 mAP | DukeMTMC-reID 랭크-1 | DukeMTMC-reID 랭크-5 | DukeMTMC-reID mAP |
|---|---|---|---|---|---|---|
| MAR (this work) | 67.7 | 81.9 | 40.0 | 67.1 | 79.8 | 48.0 |
- MAR은 Market-1501 및 DukeMTMC-reID에서 비지도 RE-ID에서 최첨단 성능을 달성하며 이전 방법들보다 눈에 띄는 차이로 우수한 성능을 보여준다.
- Market-1501에서 MAR의 Rank-1은 67.7, Rank-5은 81.9, mAP는 40.0이다.
- DukeMTMC-reID에서 MAR의 Rank-1은 67.1, Rank-5은 79.8, mAP는 48.0이다.
- 도입부 실험에서 뷰 간 소프트 멀티레이블 학습과 레퍼런스 에이전트 학습이 사전에 학습된 소스-전용 모델을 넘어서 성능 향상을 가능하게 한다.
- 소프트 멀티레이블 가이던스는 피처 유사도 기반 기준선보다 현저히 개선되며, L_CML 또는 L_RAL을 제거하면 성능이 저하된다.
- 시각적 분석은 MAR가 미세한 차이를 구분하는 식별 단서를 포착해(예: 백팩의 존재 여부 등) 시각적으로 비슷한 인물을 구분한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.