[論文レビュー] Unicom: Universal and Compact Representation Learning for Image Retrieval
Unicom は CLIP の image-text 特徴を LAION-400M でクラスタリングし、対立に頑健なランダムネガティブプロトタイプ選択とランダム特徴選択を適用することで、監視なし・監視ありの画像検索の両方を改善する、普遍的でコンパクトな画像表現を学習します。
Modern image retrieval methods typically rely on fine-tuning pre-trained encoders to extract image-level descriptors. However, the most widely used models are pre-trained on ImageNet-1K with limited classes. The pre-trained feature representation is therefore not universal enough to generalize well to the diverse open-world classes. In this paper, we first cluster the large-scale LAION400M into one million pseudo classes based on the joint textual and visual features extracted by the CLIP model. Due to the confusion of label granularity, the automatically clustered dataset inevitably contains heavy inter-class conflict. To alleviate such conflict, we randomly select partial inter-class prototypes to construct the margin-based softmax loss. To further enhance the low-dimensional feature representation, we randomly select partial feature dimensions when calculating the similarities between embeddings and class-wise prototypes. The dual random partial selections are with respect to the class dimension and the feature dimension of the prototype matrix, making the classification conflict-robust and the feature embedding compact. Our method significantly outperforms state-of-the-art unsupervised and supervised image retrieval approaches on multiple benchmarks. The code and pre-trained models are released to facilitate future research https://github.com/deepglint/unicom.
研究の動機と目的
- オープンワールド検索のための ImageNet-pretrained 特徴の一般化の制限に対処する。
- 大規模なラベルなしコーパスから疑似クラスを形成するために、マルチモーダル(画像+テキスト)クラスタリングを活用する。
- クラス間衝突を扱うためにランダムネガティブプロトタイプ選択を用いた頑健な識別目的を設計する。
- 検索の効率性を高めるために、ランダム特徴選択による特徴の圧縮性を促進する。
提案手法
- LAION-400M の画像・CLIP テキスト特徴をオフラインの k-means で混合させて100万の疑似クラスにクラスタリングする。
- 反対衝突マージンのソフトマックスを、反復ごとにネガティブプロトタイプのサブセット(クラス次元)をランダムに選択して訓練する。
- 損失計算時に Embedding とプロトタイプの両方で特徴空間の一部次元をランダムに選択する(共有 Gamma_t マスク)ことで特徴のコンパクト性を課す。
- インタークラス衝突を低減し、コンパクト性を促進するため、各反復ごとにクラスと特徴のランダムサブセットのみを更新して、完全なプロトタイプ行列を維持する。
- 前訓練および検索タスクの両方に対して ArcFace 風のマージン型ソフトマックス(マージン=0.3、スケール=64)を使用する。
- クラスタリングでプロトタイプを形成する際、画像とテキスト特徴を統合して(平均フュージョン)用いることを任意とする。
実験結果
リサーチクエスチョン
- RQ1ランダムネガティブクラス選択によるクラスタ識別は、同じデータを用いた CLIP ベースのインスタンス識別より普遍的な表現学習を改善するか。
- RQ2識別時のランダム特徴選択は、精度を損なうことなく検索に対してコンパクトで競争力のある埋め込みを生み出せるか。
- RQ3クラスタ数 k およびクラスタリングのモード(画像、テキスト、あるいは結合)が検索性能にどう影響するか。
- RQ4提案手法は監視なし・監視ありの画像検索および転移学習(例:ImageNet-1K)へ一般化できるか。
主な発見
- 13 のデータセットでの線形プローブは、同じデータで CLIP および OPEN-CLIP を上回り、平均ゲインは ViT B/32 で 3.6%、ViT B/16 で 2.7%、ViT L/14 で 1.4%。
- ViT L/14 を用いた監視なし画像検索は 7 データセットで平均 mAP 69.9% を達成し、OPEN-CLIP を 7.5%、より大きい OPEN-CLIP モデルを 5.4% 上回った。
- ImageNet-1K への転移学習は Top-1 精度で競争力があることを示し、例として ViT B/16 Ours は 85.9%、ViT L/14 Ours は 88.3% の Top-1(LAION-400M で事前訓練時)を達成。
- 先行法と比較して、画像+テキスト結合クラスタリングとランダム選択戦略を採用した Unicom は、CUB・Cars・SOP・In-Shop・INaturalist・VehicleID・GLDv2 など、様々なデータセットで線形プローブと検索の両方のベンチマークを一貫して改善する。
- アブレーション研究は、強力な性能と特徴の圧縮性を達成するためにはランダムネガティブクラスサンプリング(r1 ≈ 0.1)とランダム特徴サンプリング(r2 ≈ 0.5)の重要性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。