QUICK REVIEW

[論文レビュー] Query2Label: A Simple Transformer Way to Multi-Label Classification

Shilong Liu, Lei Zhang|arXiv (Cornell University)|Jul 22, 2021

Advanced Image and Video Retrieval Techniques参考文献 54被引用数 120

ひとこと要約

Query2Labelは、学習可能なラベル埋め込みをクエリとして用い、クロスアテンションと適応的特徴プーリングを実行するシンプルな2段階のTransformerベースのフレームワークを導入し、マルチラベル分類で複数のデータセットで最先端の結果を達成します。

ABSTRACT

This paper presents a simple and effective approach to solving the multi-label classification problem. The proposed approach leverages Transformer decoders to query the existence of a class label. The use of Transformer is rooted in the need of extracting local discriminative features adaptively for different labels, which is a strongly desired property due to the existence of multiple objects in one image. The built-in cross-attention module in the Transformer decoder offers an effective way to use label embeddings as queries to probe and pool class-related features from a feature map computed by a vision backbone for subsequent binary classifications. Compared with prior works, the new framework is simple, using standard Transformers and vision backbones, and effective, consistently outperforming all previous works on five multi-label classification data sets, including MS-COCO, PASCAL VOC, NUS-WIDE, and Visual Genome. Particularly, we establish $91.3\%$ mAP on MS-COCO. We hope its compact structure, simple implementation, and superior performance serve as a strong baseline for multi-label classification tasks and future studies. The code will be available soon at https://github.com/SlongLiu/query2labels.

研究の動機と目的

各ラベルの存在を問うためにTransformerデコーダを活用する、シンプルでバックボーン非依存のフレームワークを提案する。
ラベルの存在を問うためにTransformerデコーダを活用する、シンプルでバックボーン非依存のフレームワークを提案する。
各ラベルの存在を問うためにTransformerデコーダを活用する、シンプルでバックボーン非依存のフレームワークを提案する。
簡素な構成要素を用いて、標準ベンチマーク（MS-COCO、PASCAL VOC、NUS-WIDE、Visual Genome）で最先端の性能を示す。

提案手法

画像から空間特徴を抽出するバックボーンを用いた2段階のフレームワークを使用する。
学習可能なラベル埋め込みを複数層のTransformerデコーダへのクエリとして導入する。
各ラベルについて空間特徴マップからラベル特有の特徴をプールするためにクロスアテンションを適用する。
得られたラベル特異的特徴を線形層とシグモイドを用いてロジットへ射影し、ラベルの存在を予測する。
バックボーンに依存しない設定で訓練し、クラス不均衡に対処するため非対称版の focal lossで最適化する。
任意で軽量なTransformerエンコーダを含めてグローバル文脈を統合する；エンドツーエンド訓練。
ラベル埋め込みをデータに基づかせ、明示的なグラフなしでラベル間の相関を暗黙的に捉える。

実験結果

リサーチクエスチョン

RQ1ラベル特異的クエリを用いたTransformerベースのクロスアテンションは、マルチラベル画像における各ラベルの識別に有効な領域の局在化を改善できるか。
RQ2エンドツーエンドでラベル埋め込みを学習させることは、バックボーンに依存しない堅牢なマルチラベル分類を最先端の性能で提供するか。
RQ3提案された非対称損失がTransformerベースのフレームワークとどのように相互作用し、データセット全体のラベル不均衡を処理するか。
RQ4異なるバックボーンアーキテクチャと入力解像度を使用した場合、ベンチマーク全体でのQ2Lの性能にどのような影響があるか。

主な発見

MS-COCO、PASCAL VOC、NUS-WIDE、Visual Genomeで複数の指標にわたり新しい最先端の結果を達成。
空間的に適応的な特徴プーリングにより、中サイズのオブジェクトで特に強い性能を示す。
クロスアテンションを用いたシンプルでエンドツーエンド訓練可能なラベル埋め込み戦略が、コンパクトで実装が容易なアーキテクチャとともに強力なベースラインを提供する。
マルチヘッド注意機構を備えたTransformerデコーダは、物体表現を複数の部分やビューに分離し、遮蔽や視点変化下での認識を改善できる。
バックボーン非依存設計は、さまざまなバックボーン（CNNおよびVision Transformer）と解像度で効果的であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。