QUICK REVIEW

[論文レビュー] EVA-02: A Visual Representation for Neon Genesis

Yuxin Fang, Quan Sun|arXiv (Cornell University)|Mar 20, 2023

Multimodal Machine Learning Applications被引用数 10

ひとこと要約

EVA-02は、巨大なEVA-CLIP教師からの masked image modeling で事前学習された次世代のプレーンVision Transformerで、パラメータ数と計算量を大幅に削減しつつ最先端の性能を達成し、ImageNet-1Kで90.0のtop-1を含む、強力なゼロショットCLIP性能を実現します。

ABSTRACT

We launch EVA-02, a next-generation Transformer-based visual representation pre-trained to reconstruct strong and robust language-aligned vision features via masked image modeling. With an updated plain Transformer architecture as well as extensive pre-training from an open & accessible giant CLIP vision encoder, EVA-02 demonstrates superior performance compared to prior state-of-the-art approaches across various representative vision tasks, while utilizing significantly fewer parameters and compute budgets. Notably, using exclusively publicly accessible training data, EVA-02 with only 304M parameters achieves a phenomenal 90.0 fine-tuning top-1 accuracy on ImageNet-1K val set. Additionally, our EVA-02-CLIP can reach up to 80.4 zero-shot top-1 on ImageNet-1K, outperforming the previous largest & best open-sourced CLIP with only ~1/6 parameters and ~1/6 image-text training data. We offer four EVA-02 variants in various model sizes, ranging from 6M to 304M parameters, all with impressive performance. To facilitate open access and open research, we release the complete suite of EVA-02 to the community at https://github.com/baaivision/EVA/tree/master/EVA-02.

研究の動機と目的

中規模のVision Transformerの効果的で手頃な訓練を示すことにより、最先端の視覚モデルを民主化する。
MIMベースの事前学習に適したプレーンViTのアーキテクチャ強化を調査する。
巨大で公開されたCLIP教師が転移学習とゼロショット能力の向上に与える影響を実証する。
画像分類・検出・セマンティックセグメンテーションおよびCLIPベースのタスクを横断してEVA-02のバリアントを評価する。

提案手法

アーキテクチャの改善点を加えたプレーンなVision Transformerバックボーンを使用する（SwiGLU FFN、sub-LN、2D RoPE、 Xavier初期化）。
可視パッチに条件付けられたEVA-CLIPの視覚特徴を回帰するよう、40%のマスキングを用いたMasked Image Modelingで事前学習する。
MIMターゲット表現（教師）として巨大なEVA-CLIP（1Bパラメータ）を用い、特徴を生徒側の次元に正規化/投影する。
異なる事前学習データ規模を探索する（IN-21K、IN-21Kと38Mの他画像を統合してEVA-02-L）、事前学習期間（最大1600エポック）を検討する。
IN-1K上でEVA-02のバリアントをファインチューニングし、IN-1Kのバリアント（IN-V2、IN-Real、IN-Adv.、IN-Ren.、IN-Ske.、ObjectNet）全般での頑健性を評価する。
任意でCLIPの視覚エンコーダをEVA-02の表現から初期化してEVA-02-CLIPを形成し、ゼロショット性能を評価する。

実験結果

リサーチクエスチョン

RQ1現代の言語モデルに触発されたアーキテクチャで強化された中規模のプレーンViTは、MIM事前学習で最先端の結果を達成できるか？
RQ2巨大な公開CLIP教師をMIMターゲットとして使用すると、妥当なモデルサイズで表現品質と視覚タスク間の転移が改善されるか？
RQ3事前学習の規模・データ・中間微調整がImageNet-1Kの精度とゼロショットCLIP性能に与える影響は何か？
RQ4EVA-02は、IN-1Kのバリアントベンチマークや物体検出/セグメンテーションタスクにおいて、より大きな/オープンソースのベースラインと比較して頑健性/一般化能力がどうか？
RQ5CLIP風の目的に合わせて組み合わせた場合、EVA-02はゼロショットの映像・検索性能で競争力を持てるか？

主な発見

304MパラメータのEVA-02は、公開データのみでImageNet-1K valのファインチューニング top-1を90.0達成。
EVA-02-L-CLIP（Lサイズ）はImageNet-1K valでゼロショットtop-1 80.4に達し、はるかに多くのデータとパラメータを用いた大きなCLIPベースラインを上回る。
EVA-02はCOCOとLVISの物体検出/インスタンスセグメンテーション、およびCOCO-stuff ADE20K/COCO semantic segmentationベンチマークでより大きなSOTAモデルを上回る。
小型のEVA-02バリアント（6M–22Mパラメータ）は、MIMで事前学習した場合、インダクティブバイアスの強い軽量モデルのいくつかを上回る。
視覚エンコーダとしてEVA-02を用いたゼロショットCLIP（EVA-02-CLIP）は、比較的控えめなモデルサイズとデータで画像および動画ベンチマークで強力な結果を達成する。
巨大なEVA-CLIP教師での事前学習は有益で、特に長い訓練で効果が大きい。ただし、非常に強力な教師は最適な生徒学習のためにより長い事前学習を必要とする場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。