QUICK REVIEW

[論文レビュー] Towards Open Vocabulary Learning: A Survey

Jianzong Wu, Xiangtai Li|arXiv (Cornell University)|Jun 28, 2023

Advanced Image and Video Retrieval Techniques被引用数 8

ひとこと要約

本調査は、コンピュータビジョンにおけるオープンボキャブラリー学習について包括的なレビューを提供し、オブジェクト検出、セグメンテーション、動画理解、3Dシーン理解を焦点としている。オープンボキャブラリー学習は、ゼロショット学習および弱い教師付き学習の一般化と位置づけられ、視覚言語事前学習を活用して追加のアノテーションなしに新しいカテゴリを認識可能にし、COCO や ADE20K などのベンチマークで最先端の性能を達成している。

ABSTRACT

In the field of visual scene understanding, deep neural networks have made impressive advancements in various core tasks like segmentation, tracking, and detection. However, most approaches operate on the close-set assumption, meaning that the model can only identify pre-defined categories that are present in the training set. Recently, open vocabulary settings were proposed due to the rapid progress of vision language pre-training. These new approaches seek to locate and recognize categories beyond the annotated label space. The open vocabulary approach is more general, practical, and effective compared to weakly supervised and zero-shot settings. This paper provides a thorough review of open vocabulary learning, summarizing and analyzing recent developments in the field. In particular, we begin by comparing it to related concepts such as zero-shot learning, open-set recognition, and out-of-distribution detection. Then, we review several closely related tasks in the case of segmentation and detection, including long-tail problems, few-shot, and zero-shot settings. For the method survey, we first present the basic knowledge of detection and segmentation in close-set as the preliminary knowledge. Next, we examine various scenarios in which open vocabulary learning is used, identifying common design elements and core ideas. Then, we compare the recent detection and segmentation approaches in commonly used datasets and benchmarks. Finally, we conclude with insights, issues, and discussions regarding future research directions. To our knowledge, this is the first comprehensive literature review of open vocabulary learning. We keep tracing related works at https://github.com/jianzongwu/Awesome-Open-Vocabulary.

研究の動機と目的

学習済みのカテゴリ以外の新しいオブジェクトカテゴリが頻繁に出現する現実世界の応用において、クローズドセット学習の限界を解消すること。
オープンボキャブラリー学習、ゼロショット学習、オープンセット認識、分布外検出の間の違いを明確にすること。
複数のベンチマークとデータセットを対象とした、オープンボキャブラリー検出およびセグメンテーション分野における最近の進展を体系的かつ分析的に調査すること。
視覚言語モデル（VLM）および補助的な言語の監督（例：画像キャプション）が、アノテーションフリーのスケーラブルな一般化を可能にする役割を評価すること。
特に長尾、少数ショット、一般化ゼロショット設定において、オープンボキャブラリー学習における未解決の課題と今後の研究方向性を同定すること。

提案手法

ゼロショット学習（ZSL）、オープンセット認識（OSR）、分布外（OOD）検出と類似するパラダイムと比較し、オープンボキャブラリー学習を分類すること。
CLIP や ALBEF などの視覚言語モデル（VLM）を用いた、オープンボキャブラリー検出およびインスタンスセグメンテーション分野における最先端手法を調査すること。
高価なバウンディングボックスおよびマスクアノテーションに依存するのを減らすために、画像キャプションやテキスト埋め込みを弱い監督として活用する方法を分析すること。
COCO、LVIS、ADE20K、ScanNet といった標準ベンチマークを、制約付きおよび一般化された設定の両方で評価すること。
ResNeXt や Swin、ViT などのバックボーンアーキテクチャと、CLIP や Stable Diffusion などのVLMを、性能および一般化能力の観点から比較すること。
さまざまなタスクやデータセットにおいて、プロンプト学習、対照的事前学習、マスクフリー学習といった設計パターンのインサイトを統合すること。

実験結果

リサーチクエスチョン

RQ1オープンボキャブラリー学習は、ゼロショット学習、オープンセット認識、分布外検出と比べて、仮定や能力の面でどのように異なるか？
RQ2オープンボキャブラリー検出およびセグメンテーションで最先端の性能を達成するための主要な技術的要素と設計パターンは何か？
RQ3従来のZSLと比較して、視覚言語モデルや補助的な言語の監督（例：キャプション）が、新しいカテゴリへの一般化をどの程度向上させるか？
RQ4異なるバックボーンアーキテクチャとVLMは、オープンボキャブラリー検出、セグメンテーション、3D理解タスクにおける性能にどのように影響を与えるか？
RQ5現実世界の応用において、強力でスケーラブルかつ一般化可能なオープンボキャブラリー学習を実現するための主な課題と未解決の問題は何か？

主な発見

CGG手法は、事前学習済みのVLMや追加データを一切使用せず、COCOインスタンスセグメンテーションで46.8 APbase および 29.5 APnovel を達成し、外部監督に依存する手法を上回った。
マスクフリーな OVIS は、マスクアノテーションを一切使用せず、COCO で 27.4 APnovel を達成し、画像キャプションのみを用いても新しいクラスへの強力な一般化を示した。
ODISE-cap は、ADE20K パノプティックセグメンテーションで最高の PQ スコア 23.4 を記録し、2番目に良い手法を 0.8 ポイント以上上回った。
PADing は、COCO パノプティックセグメンテーションで見慣れたクラスに対して 41.5 PQ を達成した一方、Freeseg は未見のクラスに対して最高の PQ 29.8 を達成した。
Open-VCLIP は、UCF、HMDB、Kinetics-400 の3つの動画分類ベンチマークで最高の性能を示し、VLMが動画認識において非常に有効であることを示した。
RegionPLC は、3Dセマンティックセグメンテーションにおける未見のクラスで強力な mIoU を達成（nuScenes では hIoU 65.1）し、3Dシーンにおける未見クラスへの一般化能力が優れていることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。