[論文レビュー] Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro
本論文は LSRO を提案する。GAN 生成のラベルなし画像を実データと統合した半教師付き正則化で、追加データ収集なしに人物再識別の CNN 埋め込みを改善する。
The main contribution of this paper is a simple semi-supervised pipeline that only uses the original training set without collecting extra data. It is challenging in 1) how to obtain more training data only from the training set and 2) how to use the newly generated data. In this work, the generative adversarial network (GAN) is used to generate unlabeled samples. We propose the label smoothing regularization for outliers (LSRO). This method assigns a uniform label distribution to the unlabeled images, which regularizes the supervised model and improves the baseline. We verify the proposed method on a practical problem: person re-identification (re-ID). This task aims to retrieve a query person from other cameras. We adopt the deep convolutional generative adversarial network (DCGAN) for sample generation, and a baseline convolutional neural network (CNN) for representation learning. Experiments show that adding the GAN-generated data effectively improves the discriminative ability of learned CNN embeddings. On three large-scale datasets, Market-1501, CUHK03 and DukeMTMC-reID, we obtain +4.37%, +1.6% and +2.46% improvement in rank-1 precision over the baseline CNN, respectively. We additionally apply the proposed method to fine-grained bird recognition and achieve a +0.6% improvement over a strong baseline. The code is available at https://github.com/layumi/Person-reID_GAN.
研究の動機と目的
- 人物再識別性能を、GAN生成のラベルなしデータを追加した元の訓練セットのみを用いて改善する動機付け。
- GAN サンプルを明示的なラベルを割り当てずに扱う正則化手法(LSRO)を訓練パイプラインに導入。
- Market-1501、CUHK03、DukeMTMC-reID のデータセットで一貫した改善を示す。
- 汎用性を検証するための細分類認識タスク(CUB-200-2011)への適用性を示す。
提案手法
- 元の re-ID 訓練データで DCGAN を訓練し、ラベルなしの歩行者画像を生成する。
- 実データ付きのラベル付きデータと GAN 生成のラベルなしデータを CNN 訓練(ResNet-50)中で1つのエンドツーエンドパイプラインで結合する。
- LSRO: GAN生成サンプルには全クラスに対して一様なラベル分布を割り当て、実データサンプルは真のラベルを保持する。
- 実データ(真値)と生成データ(一様)ラベル付きサンプルを区別するクロスエントロピーロスを使用(Z フラグによる2つの損失)。
- ImageNet pretrained ネットワークでファインチューニングを行い、訓練識別子数に合わせて最終層のサイズを調整して評価する。
![Figure 1: The pipeline of the proposed method. There are two components: a generative adversarial model [ 27 ] for unsupervised learning and a convolutional neural network for semi-supervised learning. “Real Data” represents the labeled data in the given training set; “Training data” includes both t](https://ar5iv.labs.arxiv.org/html/1701.07717/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1強力なベースラインより、CNNベースの re-ID パイプラインへ GAN 生成のラベルなしサンプルを注入することで rank-1 精度と mAP が改善されるか?
- RQ2 LSRO はこの文脈での unlabeled GAN データ処理の他の戦略(All in one、Pseudo label)より優れているか?
- RQ3 GAN生成画像の数は大規模データセットでの re-ID 性能にどう影響するか?
- RQ4 GAN生成サンプルは人物再識別を超えた細分類認識にも正則化効果をもたらすか?
主な発見
- GAN-generated data with LSRO consistently improves the CNN baseline on Market-1501, CUHK03, and DukeMTMC-reID datasets.
- On Market-1501, adding GAN images yields notable gains (e.g., rank-1 and mAP improvements when augmenting with tens of thousands of GAN samples).
- CUHK03 shows smaller but positive gains due to distribution differences between GANs trained on Market-1501 and CUHK03.
- DukeMTMC-reID also benefits with measurable rank-1 and mAP improvements.
- LSRO outperforms two alternative unlabeled-data strategies (All in one class and Pseudo label) in the experiments.
- The LSRO approach also yields a small but consistent improvement on a fine-grained recognition task (CUB-200-2011).
![Figure 2: The image distribution per class in the dataset Market-1501 [ 49 ] , CUHK03 [ 19 ] and DukeMTMC-reID [ 30 ] . We observe that all these datasets suffer from the limited images per class. Note that there are only a few classes with more than 20 images.](https://ar5iv.labs.arxiv.org/html/1701.07717/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。