[論文レビュー] Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification
この論文は SPGAN を提案する。SPGAN は、CycleGAN と組み合わせて、ソース領域の画像を翻訳しつつ同一性情報を維持し、ターゲットIDと翻訳画像が異なることを保証することで、ターゲット領域にラベル付きデータを作成する、類似度を保つ画像-画像翻訳フレームワークである。これにより、人物再識別における教師なしドメイン適応を改善できる。
Person re-identification (re-ID) models trained on one domain often fail to generalize well to another. In our attempt, we present a "learning via translation" framework. In the baseline, we translate the labeled images from source to target domain in an unsupervised manner. We then train re-ID models with the translated images by supervised methods. Yet, being an essential part of this framework, unsupervised image-image translation suffers from the information loss of source-domain labels during translation. Our motivation is two-fold. First, for each image, the discriminative cues contained in its ID label should be maintained after translation. Second, given the fact that two domains have entirely different persons, a translated image should be dissimilar to any of the target IDs. To this end, we propose to preserve two types of unsupervised similarities, 1) self-similarity of an image before and after translation, and 2) domain-dissimilarity of a translated source image and a target image. Both constraints are implemented in the similarity preserving generative adversarial network (SPGAN) which consists of an Siamese network and a CycleGAN. Through domain adaptation experiment, we show that images generated by SPGAN are more suitable for domain adaptation and yield consistent and competitive re-ID accuracy on two large-scale datasets.
研究の動機と目的
- Labeled source と unlabeled target データセット間のドメインシフトを person re-ID で解消する。
- 画像-翻訳中に基本的なアイデンティティ情報を保持し、ターゲット領域での効果的な教師あり学習を可能にする。
- 自己類似性とドメイン不類似性の制約を導入して、ドメイン間でIDの一貫性を維持する。
- SPGAN が標準の CycleGAN よりもドメイン適応に適した翻訳サンプルを生成することを実証する。
- Market-1501 および DukeMTMC-reID の大規模データセットで、再識別精度の改善を実証的に示す。
提案手法
- CycleGAN と Siamese ネットワーク (SiaNet) を組み合わせて、アイデンティティを保持した翻訳を強制する。
- 対照学習損失を用いて、翻訳画像の対をそれぞれ元のソースと近づける(自己類似性)と、ターゲット領域の画像から離す(ドメイン不類似性)を行う。
- 正の対は、翻訳されたソース画像とその元のソース対、翻訳されたターゲット画像とその元のターゲットを定義し、負の対は翻訳画像と他方の領域の画像とする。
- 全体の SPGAN 目的関数 L_sp = L_Tadv + L_Sadv + λ1 L_cyc + λ2 L_ide + λ3 L_con を組み込む。
- ターゲット領域のアイデンティティ制約 L_ide を適用して翻訳を正則化し、色・内容の手掛かりを保持する。
- テスト時の特徴量に対して局所最大プーリング(LMP)戦略を用いて、再識別特徴量の頑健性を高める。
実験結果
リサーチクエスチョン
- RQ1教師あり学習のターゲットドメインで、ソースドメインのアイデンティティを保持するターゲット領域サンプルを、教師なしの画像-画像翻訳で生成できるか。
- RQ2自己類似性とドメイン不類似性の制約は、人物再識別のドメイン適応における翻訳画像の質を向上させるか。
- RQ3SPGAN はクロスドメイン再識別性能において CycleGAN や直接転送と比べてどのように位置づけられるか。
- RQ4対照学習のマージン m および L_con、L_ide、L_cyc の重みが再識別精度に与える影響はどれくらいか。
- RQ5Local Max Pooling (LMP) はドメイン適応再識別の性能をさらに改善するか。
主な発見
| Method | DukeMTMC-reID rank-1 | DukeMTMC-reID rank-5 | DukeMTMC-reID rank-10 | DukeMTMC-reID rank-20 | DukeMTMC-reID mAP | Market-1501 rank-1 | Market-1501 rank-5 | Market-1501 rank-10 | Market-1501 rank-20 | Market-1501 mAP |
|---|---|---|---|---|---|---|---|---|---|---|
| Supervised Learning | 66.7 | 79.1 | 83.8 | 88.7 | 46.3 | 75.8 | 89.6 | 92.8 | 95.4 | 52.2 |
| Direct Transfer | 33.1 | 49.3 | 55.6 | 61.9 | 16.7 | 43.1 | 60.8 | 68.1 | 74.7 | 17.0 |
| CycleGAN (basel.) | 38.1 | 54.4 | 60.5 | 65.9 | 19.6 | 45.6 | 63.8 | 71.3 | 77.8 | 19.1 |
| CycleGAN (basel.) + L_ide | 38.5 | 54.6 | 60.8 | 66.6 | 19.9 | 48.1 | 66.2 | 72.7 | 80.1 | 20.7 |
| SPGAN (m=0) | 37.7 | 53.1 | 59.5 | 65.6 | 20.0 | 49.2 | 66.9 | 74.0 | 80.0 | 20.5 |
| SPGAN (m=1) | 39.5 | 55.0 | 61.4 | 67.3 | 21.0 | 48.7 | 65.7 | 73.0 | 79.3 | 21.0 |
| SPGAN (m=2) | 41.1 | 56.6 | 63.0 | 69.6 | 22.3 | 51.5 | 70.1 | 76.8 | 82.4 | 22.8 |
| SPGAN (m=2) + LMP | 46.9 | 62.6 | 68.5 | 74.0 | 26.4 | 58.1 | 76.0 | 82.7 | 87.9 | 26.9 |
- SPGAN は DukeMTMC-reID および Market-1501 で CycleGAN ベースラインよりクロスドメイン再識別の精度を一貫して向上させる。
- m = 2 のとき、SPGAN により DukeMTMC-reID の rank-1 は 41.1%、Market-1501 は 51.5%(LMP 前)へ上昇。
- SPGAN with m = 2 and LMP は DukeMTMC-reID で rank-1 46.9% および mAP 26.4%、Market-1501 で rank-1 58.1% および mAP 26.9% を達成。
- SPGAN+LMP は複数の指標(rank-1, rank-5, rank-10, rank-20, mAP)で直接転移および CycleGAN 変種を上回る。
- SPGAN は Market-1501 および DukeMTMC-reID における単一クエリおよびマルチクエリ設定で、最先端の教師なし手法と比べて競争力のある、あるいは優れた性能を示す。
- 翻訳中にアイデンティティ情報を保持することが、教師あり再識別訓練のドメイン適応サンプルを向上させることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。