QUICK REVIEW

[論文レビュー] Recognize Anything: A Strong Image Tagging Model

Youcai Zhang, Xinyu Huang|arXiv (Cornell University)|Jun 6, 2023

Multimodal Machine Learning Applications被引用数 21

ひとこと要約

RAMは注釈なしの画像-テキストデータと意味的ラベルクエリを使用して、6,400+ のタグとオープンセットカテゴリに対して強力なゼロショット認識を実現する画像タグ付けの基盤モデルであり、CLIP、BLIP、そしていくつかの完全監視ベースラインを上回る。

ABSTRACT

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM makes a substantial step for large models in computer vision, demonstrating the zero-shot ability to recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google tagging API. We are releasing the RAM at \url{https://recognize-anything.github.io/} to foster the advancements of large models in computer vision.

研究の動機と目的

分類、検出、セグメンテーションデータセットおよび商業的タグ付け製品全体をカバーする普遍的で統一されたラベル体系を確立する。
未見カテゴリでのゼロショット認識が可能なデータ効率の高いオープンボキャブラリタグ付けモデルを開発する。
大規模な画像-テキストデータから自動的に注釈を生成・清浄化するデータエンジンを作成してタグの品質を向上させる。
RAMの分類、検出、セグメンテーションのベンチマークにおけるゼロショットタグ付け性能を実証し、最先端モデルと比較する。

提案手法

キャプションを解析して自動的なテキスト意味解析を通じて大規模な注釈なし画像タグを生成する。
画像・タグ・テキストのトリプレットを活用するために、キャプション生成とタグ付けを共同訓練する。
オフ・ザ・シェルドのテキストエンコーダを導入し、タグを意味的に豊かなテキストラベルクエリへ変換してオープンボキャブラリ認識を実現する。
視覚バックボーン（Swin Transformer）と軽量な画像-タグ認識デコーダ、キャプション生成のエンコーダ-デコーダを用いる。
未見カテゴリ認識を向上させ、オープンセット機能を可能にするためにCLIPで画像特徴を蒸留する。
追加のタグを生成し、Grounding-DINOで領域を局所化し、領域をクラスタリングして外れ値を除去してラベルを清浄化するデータエンジンを構築する。
性能を向上させるために小規模で高品質なデータセット（COCO）でファインチューニングする。

実験結果

リサーチクエスチョン

RQ1RAMはアノテーションなしの訓練データを用いて、幅広く開放されたカテゴリ集合（6,400以上）で強力なゼロショット画像タグ付けを達成できるか。
RQ2キャプション生成とタグ付けの統合、意味的に情報量の多いテキストラベルクエリの利用は、オープンセット認識と全体的なタグ付け精度にどのような影響を与えるか。
RQ3データエンジン（生成、清浄化、14M画像へのスケーリング、COCOファインチューニング）の効果はタグ品質と下流のゼロショット性能にどの程度寄与するか。
RQ4RAMはゼロショットおよび監督あり設定の丮界で、最先端の多ラベル分類、検出、セグメンテーション、ビジョン-ランゲージモデルと比較してどうか。

主な発見

RAMは強力なゼロショットタグ付け性能を達成し、複数のベンチマークでCLIPやBLIPを大きく上回る。
RAMは一部の完全監視手法を凌ぎ、さまざまなオープンセットシナリオでGoogle tagging APIと競合する。
RAMは4M事前訓練データで既にOpenImages-commonでML-Decoderを上回り、RAM-14Mはテスト全体でさらなる利益をもたらす。
ラベル体系を拡張し、意味的なテキストラベルクエリを組み込むことで、オープンセット認識とタグ付けカバレッジが大幅に向上する。
データエンジン（生成、清浄化、14M画像へのスケーリング、COCOファインチューニング）はOPPO-common、OpenImages-common、OpenImages-rareで顕著な性能向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。