QUICK REVIEW

[論文レビュー] LAVIS: A Library for Language-Vision Intelligence

Dongxu Li, Junnan Li|arXiv (Cornell University)|Sep 15, 2022

Multimodal Machine Learning Applications被引用数 21

ひとこと要約

LAVISは、画像-テキストおよび動画-テキストタスクに跨る最先端の言語ビジョンモデルを訓練・評価・デプロイする統一インターフェースを提供するオープンソースライブラリであり、多数のデータセット、事前学習済みチェックポイント、および実用的なツールを備えています。

ABSTRACT

We introduce LAVIS, an open-source deep learning library for LAnguage-VISion research and applications. LAVIS aims to serve as a one-stop comprehensive library that brings recent advancements in the language-vision field accessible for researchers and practitioners, as well as fertilizing future research and development. It features a unified interface to easily access state-of-the-art image-language, video-language models and common datasets. LAVIS supports training, evaluation and benchmarking on a rich variety of tasks, including multimodal classification, retrieval, captioning, visual question answering, dialogue and pre-training. In the meantime, the library is also highly extensible and configurable, facilitating future development and customization. In this technical report, we describe design principles, key components and functionalities of the library, and also present benchmarking results across common language-vision tasks. The library is available at: https://github.com/salesforce/LAVIS.

研究の動機と目的

複数のタスクとデータセットに跨って、言語-ビジョンモデルを訓練・評価するための統合的でモジュール式のフレームワークを提供する。
再現性の高い研究のために、事前学習済みおよび微調整済みの基盤モデルとそのチェックポイントへの容易なアクセスを提供する。
データセットの自動ダウンロード、GUIデータセットブラウザ、使い慣れたベンチマークと設定の提供を通じて、研究の手間を削減する。
新しいモデル、タスク、データセットをサポートするための拡張性を育み、学術界および産業界でのより広い普及を促進する。

提案手法

ランナー、タスク、データセット、モデル、プロセッサからなる統一的でモジュール式のライブラリアーキテクチャを導入する。
20以上の公開データセットと10以上のタスクにわたる画像-テキストおよび動画-テキストタスクをサポートする。
4つの基盤モデル（ALBEF、BLIP、CLIP、ALPRO）の30個超の事前学習済みおよびタスク特化の微調整済みチェックポイントへのアクセスを提供する。
使いやすさと再現性を支援するために、データセットダウンロードツール、GUIデータセットブラウザ、データセットカード、およびウェブデモを組み込む。
公式結果と比較して実装を検証し、クロスタスク適応性を示すためのベンチマーク再現性。

実験結果

リサーチクエスチョン

RQ1統一的なモジュラー型フレームワークは、広範なタスクとデータセットにわたって最先端の言語-ビジョンモデルへの容易なアクセスを実現できるだろうか？
RQ2LAVISで再現されたベンチマークは、複数の基盤モデルとタスクにおける公式のモデル性能とどれくらい整合するか？
RQ3補助ツール（自動ダウンロード、GUIブラウザ、デモ）は、言語-ビジョン研究の使いやすさと再現性をどの程度向上させるか？
RQ4最小限のエンジニアリング労力で、新しいタスク、データセット、モデルをサポートするようにライブラリをどの程度拡張できるか。

主な発見

LAVISは、言語-ビジョンモデルの訓練・評価・ベンチマークを行うための統一インターフェースとモジュール設計を提供する。
本ライブラリは、20を超える公開データセットと10を超えるタスクにわたる画像-テキストおよび動画-テキストタスクをサポートする。
ユーザーは、4つの基盤モデル：ALBEF、BLIP、CLIP、ALPRO から、30超の事前学習済みおよびタスク特化の微調整済みチェックポイントにアクセスできる。
実験ベンチマークは、複数のモデルとタスクにわたり、公式結果とほぼ一致する再現結果を示している。
このフレームワークは、新しいタスクとデータセット（例：KVQA、Video Dialogue）への適応を競争力のある性能で可能にする。
追加リソース（事前学習済みチェックポイント、自動データセットダウンロード、GUIデモ、およびデータセットブラウザ）は、再現性とデプロイの障壁を下げる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。