QUICK REVIEW

[論文レビュー] Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive Person Re-Identification

Jianing Li, Shiliang Zhang|arXiv (Cornell University)|Jul 21, 2020

Video Surveillance and Tracking Methods参考文献 39被引用数 24

ひとこと要約

本論文は、自己適応的分類（SAC）を用いた局所的なバッチ単位の one-hot ラベル付与と、視覚的類似性と時間的整合性を統合したグローバルな疑似ラベル付けのためのメモリベースの時間的誘導クラスタリング（MTC）手法を用いる、教師なしドメイン適応型人物再識別における共同視覚的・時間的整合性フレームワークを提案する。本手法は最先端の性能を達成し、100エポックの学習のみで、教師なしドメイン適応下で Market-1501 で 86.8% のランク-1精度を達成する。

ABSTRACT

Unsupervised domain adaptive person Re-IDentification (ReID) is challenging because of the large domain gap between source and target domains, as well as the lackage of labeled data on the target domain. This paper tackles this challenge through jointly enforcing visual and temporal consistency in the combination of a local one-hot classification and a global multi-class classification. The local one-hot classification assigns images in a training batch with different person IDs, then adopts a Self-Adaptive Classification (SAC) model to classify them. The global multi-class classification is achieved by predicting labels on the entire unlabeled training set with the Memory-based Temporal-guided Cluster (MTC). MTC predicts multi-class labels by considering both visual similarity and temporal consistency to ensure the quality of label prediction. The two classification models are combined in a unified framework, which effectively leverages the unlabeled data for discriminative feature learning. Experimental results on three large-scale ReID datasets demonstrate the superiority of proposed method in both unsupervised and unsupervised domain adaptive ReID tasks. For example, under unsupervised setting, our method outperforms recent unsupervised domain adaptive methods, which leverage more labels for training.

研究の動機と目的

教師なしドメイン適応型人物再識別における大きなドメインギャップとラベルなしデータの欠如という課題に対処する。
クラスタリングにおける視覚的類似性と時間的整合性を統合することで、疑似ラベルの品質を向上させる。
ラベルなしターゲットドメインにおける視覚的ばらつきやハードネガティブサンプルによる信頼性の低いクラスタリングを低減する。
最小限の監督のもとで統合されたフレームワークを用いて、効率的かつ頑健な特徴学習を可能にする。
従来の手法と比較して、より少ない学習エポック数で最先端の性能を達成する。

提案手法

各学習バッチ内での画像に異なる one-hot ラベルを割り当てることで、局所的なクラス間分離を強化する自己適応的分類（SAC）モデルを導入する。
視覚的類似性と時間的整合性の両方を用いて、グローバルな多クラス疑似ラベルを予測するメモリベースの時間的誘導クラスタリング（MTC）手法を開発する。
カメラ間のフレーム番号の間隔を用いて時間的整合性を推定し、視覚的に類似しているが時間的に整合性のないサンプルを自然にフィルタリング可能にする。
増強された特徴を格納・更新するメモリバンクを採用することで、疑似ラベル予測の頑健性と安定性を向上させる。
SAC と MTC を統合したフレームワークを構築し、クラス内凝集性とクラス間分離性を同時に最適化する。
滑らかで微分可能な統合メカニズムを用いて、視覚的および時間的類似性を統合し、クラスタリングの頑健性を向上させる。

実験結果

リサーチクエスチョン

RQ1視覚的整合性と時間的整合性の両方を同時に強制することで、教師なし人物再識別における疑似ラベル品質が向上するか？
RQ2フレーム番号の間隔に基づく時間的整合性を視覚的類似性のみに加えることで、クラスタリングの頑健性がどのように向上するか？
RQ3ミニバッチ内での自己適応的分類戦略が、監督なし条件下でどのように局所的特徴の識別性を向上させるか？
RQ4提案手法は、精度および学習効率の面で、既存の教師なしおよびドメイン適応型 ReID 手法を上回るか？
RQ5推論段階での時間的整合性が、学習段階での最適化を超えて性能をさらに向上させるか？

主な発見

提案された JVTC 手法は、教師なしドメイン適応下で Market-1501 で 86.8% のランク-1精度を達成し、以前の最先端手法を上回る。
MSMT17 では、DukeMTMC-reID をソースドメインとして使用した場合、52.9% のランク-1精度を達成し、SSG++ よりも 11.3 パcent point 高い。
推論時における統合類似性を適用した JVTC+ では、MSMT17 で 75.2% の mAP と 81.2% のランク-1 を達成し、半教師ありの SSG++ を上回る。
本手法はわずか 100 エポックで収束し、2100 エポックを要する SSG よりもはるかに高速でありながら、より高い性能を達成する。
時間的整合性により、視覚的に類似しているが時間的に整合性のないサンプルがフィルタリングされ、疑似ラベル付けにおける誤検出が低減される。
メモリバンクを備えた MTC モジュールは特徴の頑健性を向上させ、より信頼性の高いグローバルクラスタリングと優れた一般化性能を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。