QUICK REVIEW

[論文レビュー] MultiGrain: a unified image embedding for classes and instances

Maxim Berman, Hervé Jeǵou|arXiv (Cornell University)|Feb 14, 2019

Domain Adaptation and Few-Shot Learning参考文献 52被引用数 34

ひとこと要約

MultiGrain は分類とインスタンス検索の両方の目的で訓練された単一の画像埋め込みを学習し、画像分類とインスタンス/コピー検索の強力な性能を実現し、テスト時の解像度とプーリングの適応を可能にする。

ABSTRACT

MultiGrain is a network architecture producing compact vector representations that are suited both for image classification and particular object retrieval. It builds on a standard classification trunk. The top of the network produces an embedding containing coarse and fine-grained information, so that images can be recognized based on the object class, particular object, or if they are distorted copies. Our joint training is simple: we minimize a cross-entropy loss for classification and a ranking loss that determines if two images are identical up to data augmentation, with no need for additional labels. A key component of MultiGrain is a pooling layer that takes advantage of high-resolution images with a network trained at a lower resolution. When fed to a linear classifier, the learned embeddings provide state-of-the-art classification accuracy. For instance, we obtain 79.4% top-1 accuracy with a ResNet-50 learned on Imagenet, which is a +1.8% absolute improvement over the AutoAugment method. When compared with the cosine similarity, the same embeddings perform on par with the state-of-the-art for image retrieval at moderate resolutions.

研究の動機と目的

クラスレベルの分類とインスタンスレベルの検索をサポートする単一の画像埋め込みを開発する。
分類とインスタンス検索の結合訓練が分類精度を向上させることを示す。
分類と検索の両方を向上させる高解像度入力を活用するプーリング機構を導入する。
繰り返しデータ拡張を含む効果的な訓練戦略と、柔軟なテスト時の解像度/プーリング設定を示す。

提案手法

標準の分類トランク（ResNet-50）から開始する。
制御可能な指数 p を持つ固定サイズの埋め込みを生成する GeM プーリング層を追加する。
分類クロスエントロピー損失と検索マージン/対照損失を併用して共同訓練する。
繰り返し拡張 (RA) を伴うバッチサンプリング戦略を用いて検索信号を強化する。
訓練後に PCA ホワイトニングを適用して検索を支援しつつ、分類性能を維持する。
分類と検索のバランスを取るため、入力解像度と GeM 指数 p* を変えることでテスト時の適応を許す。

実験結果

リサーチクエスチョン

RQ1分類とインスタンス検索の両方の損失で学習した単一の埋め込みが、両方のタスクで競争力のある性能を達成できるか？
RQ2訓練の選択（バッチ処理、プーリング指数、解像度）が分類精度と検索品質のトレードオフにどう影響するか？
RQ3バッチ内の繰り返し拡張は分類性能を害することなく検索信号を改善するか？
RQ4テスト時の入力解像度とプーリング指数をどう調整して、タスクを跨いで高性能を維持できるか？

主な発見

アーキテクチャ	ラムダ	データ拡張	解像度	訓練時プーリング	p=1
ResNet-50		full	224	76.2 / 92.9	76.2 / 93.1
MultiGrain	1	full	224	76.8 / 93.2	76.9 / 93.5
MultiGrain	0.5	full	224	77.0 / 93.6	77.4 / 93.6
MultiGrain	0.5	AA	224	77.4 / 93.6	78.2 / 93.9
MultiGrain	0.5	full	500	76.5 / 93.5	78.6 / 94.4
MultiGrain	0.5	AA	500	77.7 / 94.0	79.4 / 94.8
MultiGrain	0.5	full	800	73.5 / 93.5	77.2 / 93.5
MultiGrain	0.5	AA	800	74.1 / 91.8	77.8 / 93.9

ResNet-50 に MultiGrain を組み合わせた場合、解像度 500、p=3、lambda=0.5 で ImageNet の top-1 が 78.6% に達し、ベースラインを上回りこの設定で最先端に近づく。
結合訓練された埋め込みは、単一タスクのベースラインと比較して分類精度を向上させる（例: 76.2% のベースラインが、様々な設定で 76.9–78.6% に）。
バッチ内の繰り返し拡張（RA）は分類精度を有意に改善（p=1 で +0.6%）。
p=3 の GeM プーリングはより良い局所化を提供し、高解像度適応で訓練した場合に検索と分類の両方を向上させる。
テスト時のプーリング指数 p* の調整により、より大きな入力解像度（例: 500, 800）を活用でき、両タスクの向上を得られるが、非常に大きなスケールは利益を減じる場合がある。
PCA ホワイトニングは検索データセットへの一般化を助け、埋め込みを分類に使用する能力を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。