[論文レビュー] Localizing Objects with Self-Supervised Transformers and no Labels
LOSTは、ラベルなしでパッチレベルの自己監督型トランスフォーマ特徴を用いて単一画像内の物体を局在化し、無監督物体発見における最先端のCorLocを達成するとともに、無監督のクラス非依存・クラス認識検出器を可能にします。
Localizing objects in image collections without supervision can help to avoid expensive annotation campaigns. We propose a simple approach to this problem, that leverages the activation features of a vision transformer pre-trained in a self-supervised manner. Our method, LOST, does not require any external object proposal nor any exploration of the image collection; it operates on a single image. Yet, we outperform state-of-the-art object discovery methods by up to 8 CorLoc points on PASCAL VOC 2012. We also show that training a class-agnostic detector on the discovered objects boosts results by another 7 points. Moreover, we show promising results on the unsupervised object discovery task. The code to reproduce our results can be found at https://github.com/valeoai/LOST.
研究の動機と目的
- 注釈なしで画像コレクション内の物体局在化を動機付け、ラベリングコストを削減する。
- 自己監視型ビジョントランスフォーマーからのパッチレベルの相関を活用して、単一画像内の物体を局在化する。
- シードベースの局在化が領域提案を上回り、下流の無監督検出タスクを可能にすることを示す。
- LOSTからの疑似ラベルが、監視なしでクラス非依存検出器とクラス認識検出器を訓練できることを示す。
提案手法
- DINOで事前学習されたビジョントランスフォーマを用いて、単一画像からパッチベースの特徴を抽出する。
- パッチ特徴間の正の相関を用いてパッチ類似グラフを構築し、このグラフで次数が最も低いパッチを初期シードとして識別する。
- シードを、シードと正に相関し、かつ最も次数の低い集合に含まれるパッチを反復的に追加して拡張する。
- 画像パッチとシードを相関付けて二値のオブジェクトマスクを計算し、シードを含む最大連結成分からオブジェクトの境界ボックスを抽出する。
- LOSTボックス上でクラス非依存検出器を訓練し、画像ごとに複数の物体検出を得る。
- 発見された物体のCLSトークンをクラスタリングして無監督のクラス認識検出の疑似ラベルを得、評価のためにハンガリアンマッチングを用いてクラスタを実在クラスに対応づける。
実験結果
リサーチクエスチョン
- RQ1自己監視型トランスフォーマの活性化は、アノテーションなしで単一画像内の物体を局在化できるか。
- RQ2パッチ相関に基づくシード選択とシード拡張は、局在化品質にどのような影響を与えるか?
- RQ3LOST由来のボックスは効果的なクラス非依存検出器を訓練し、クラスタリングベースの疑似ラベルと組み合わせた場合に無監督物体検出を改善できるか?
主な発見
| 方法 | VOC07_trainval | VOC12_trainval | COCO_20k |
|---|---|---|---|
| Selective Search | 18.8 | 20.9 | 16.0 |
| EdgeBoxes | 31.1 | 31.6 | 28.8 |
| Kim et al. | 43.9 | 46.4 | 35.1 |
| Zhang et al. | 46.2 | 50.5 | 34.8 |
| DDT+ | 50.2 | 53.1 | 38.2 |
| rOSD | 54.5 | 55.3 | 48.5 |
| LOD | 53.6 | 55.1 | 48.5 |
| DINO-seg (ViT-S/16) | 45.8 | 46.2 | 42.1 |
| LOST (ours) | 61.9 | 64.0 | 50.7 |
| LOST (ours) + CAD | 65.7 | 70.4 | 57.5 |
- LOSTはVOC07、VOC12、COCO_20kのCorLocにおいて、最先端の無監督物体発見手法を大きく上回る。
- LOSTボックス上でクラス非依存検出器を訓練すると、評価データセット全体でCorLocが4-7ポイント向上する。
- LOSTボックスとクラスタリングで訓練した無監督のクラス認識検出はVOC07で競争力のあるAP@0.5を達成し、いくつかのクラス(例:飛行機、バス、犬、馬、電車、猫)で弱監督法よりも高い性能を示す。
- LOSTベースの疑似ボックスは、初期の疑似ボックスと比較してAPを大幅に向上させる。
- バックボーンの選択は重要で、DINO特徴を持つViT-S/16が、検証済みバックボーンの中で最良の性能を示す。
- LOSTは画像ごとにスケーラブルで線形計算量の局在化を実現し、画像間検索を必要とせず、大規模データセットに適している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。