QUICK REVIEW

[論文レビュー] ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

Chunyuan Li, Haotian Liu|arXiv (Cornell University)|Apr 19, 2022

Multimodal Machine Learning Applications被引用数 64

ひとこと要約

Elevater は、言語拡張視覚モデルのタスクレベル転移を20の画像分類データセットと35の物体検出データセットで評価する公開ベンチマークとオープンソースツールキットを提供します。知識拡張と自動ハイパーパラメータ調整を備えています。

ABSTRACT

Learning visual representations from natural language supervision has recently shown great promise in a number of pioneering works. In general, these language-augmented visual models demonstrate strong transferability to a variety of datasets and tasks. However, it remains challenging to evaluate the transferablity of these models due to the lack of easy-to-use evaluation toolkits and public benchmarks. To tackle this, we build ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer), the first benchmark and toolkit for evaluating(pre-trained) language-augmented visual models. ELEVATER is composed of three components. (i) Datasets. As downstream evaluation suites, it consists of 20 image classification datasets and 35 object detection datasets, each of which is augmented with external knowledge. (ii) Toolkit. An automatic hyper-parameter tuning toolkit is developed to facilitate model evaluation on downstream tasks. (iii) Metrics. A variety of evaluation metrics are used to measure sample-efficiency (zero-shot and few-shot) and parameter-efficiency (linear probing and full model fine-tuning). ELEVATER is a platform for Computer Vision in the Wild (CVinW), and is publicly released at at https://computer-vision-in-the-wild.github.io/ELEVATER/

研究の動機と目的

野外の多様なダウンストリームデータセットに対する言語拡張視覚モデルの転移可能性を評価する。
ダウンストリームタスクを補強する外部知識ソースを導入し、ゼロショット/少数ショット/全ショット転移への影響を検討する。
ベンチマーク間で公正で再現可能なモデル適応と評価を自動化するツールキットを提供する。

提案手法

公開ベンチマークを組み立てる（ICinW は 20 個の IC データセット、ODinW は 35 個の OD データセット、それぞれ外部知識を付与）。
自動ハイパーパラメータチューニングを備えたオープンソースツールキットを開発し、手動チューニングを回避して公正な比較を保証する。
言語初期化の二重射影法および一重射影法を含む言語拡張適応手法を提案する。
ゼロ-/少数-/全ショット転移と、線形プロービング対フルモデルファインチューニングを効率性指標として評価する。
外部知識ソース（WordNet、Wiktionary、GPT-3）を組み込み、ゼロ-/少数-/全ショット転移への影響を評価する。

実験結果

リサーチクエスチョン

RQ1言語拡張は、さまざまなデータセットにわたる画像分類と物体検出のタスクレベル転移にどのような影響を与えるか？
RQ2外部知識ソースはゼロ-/少数-/全ショット転移性能にどのような影響を与えるか？
RQ3どの適応戦略（線形プロービング対ファインチューニング）と初期化方式が、下流タスクで言語と知識を最も効果的に活用できるか？

主な発見

言語拡張モデルは、少数ショット設定で言語なしベースラインを一貫して上回る。
言語初期化による適応（二重射影または一重射影）は、ICとODの両方でランダム初期化に比べて性能を顕著に向上させる。
少数ショットの結果はゼロショットより一般的に良く、ゼロショット優位という一部の以前の報告と対照的である。
非常に少数のショット設定では線形プロービングがフルファインチューニングよりもしばしば優れており、データが増えるとファインチューニングが線形プロービングを上回ることがある。
外部知識（WordNet、Wiktionary、GPT-3）は、いくつかのデータセットでゼロ-/少数-/全ショット転移を改善し、GPT-3 は慎重に活用すればより広いカバレッジを提供する。
プロンプトベースまたは知識統合付き適応（例：GLIP風のプロンプト）は、訓練可能パラメータを少なくして競争力のある、または優れた結果を達成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。