[論文レビュー] PandaGPT: One Model To Instruction-Follow Them All
PandaGPTはImageBindエンコーダをVicuna LLMと統合し、6つのモダリティ(画像/動画、テキスト、音声、深度、熱画像、IMU)を扱うマルチモーダルの指示追従モデルであり、整列した画像-テキストの学習データを用いてクロスモーダルおよび構成的タスクを可能にする。
We present PandaGPT, an approach to emPower large lANguage moDels with visual and Auditory instruction-following capabilities. Our pilot experiments show that PandaGPT can perform complex tasks such as detailed image description generation, writing stories inspired by videos, and answering questions about audios. More interestingly, PandaGPT can take multimodal inputs simultaneously and compose their semantics naturally. For example, PandaGPT can connect how objects look in an image/video and how they sound in an audio. To do so, PandaGPT combines the multimodal encoders from ImageBind and the large language models from Vicuna. Notably, only aligned image-text pairs are required for the training of PandaGPT. Thanks to the strong capability of ImageBind in embedding data from different modalities into the same space, PandaGPT displays emergent, i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g., video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an initial step toward building AGI that can perceive and understand inputs in different modalities holistically, as we humans do. Our project page is at https://panda-gpt.github.io/.
研究の動機と目的
- 複数のモダリティを知覚し推論できる汎用モデルの構築を動機づける。
- 整列した画像-テキストデータを活用してマルチモーダルの指示遵守システムを訓練する。
- 共有埋め込み空間によって生じる新たなクロスモーダル機能を探る。
- 画像/動画の説明、マルチモーダルストーリーテリング、音声に関する質問などのタスクを実演する。
提案手法
- ImageBindのマルチモーダルエンコーダと Vicuna 13B を凍結した LLM バックボーンとして組み合わせる。
- ImageBind表現をVicunaへ写像する線形射影 f のみを訓練し、VicunaのアテンションにLoRA重みを適用する。
- 160k件の画像-言語指示追従例を用い、LR 5e-4で8台のA100 GPUを横断して2エポック訓練する。
- ImageBindとVicunaのパラメータを凍結したまま、Vicunaパラメータの0.4%を学習する。
- 目的は、pθ(y_i|x_<i,y_<i-1,f(h_I))として、マルチモーダルなプロンプトと応答の系列全体で最適化される。

実験結果
リサーチクエスチョン
- RQ1PandaGPTは、画像-テキストに整列した訓練データのみを用いて、6つのモダリティを横断した指示遵守を実行できるか?
- RQ2ImageBind埋め込みを大規模言語モデルと統合したときに現れる新たなクロスモーダル機能は何か?
- RQ3PandaGPTは視覚入力と聴覚入力などのモダリティを越えて意味を構成できる程度はどの程度か?
- RQ4マルチモーダル推論と構成的理解を示すタスク(例:画像-動画、画像-音声)は何か?
主な発見
- PandaGPTは画像/動画を基盤とするQA、画像/動画に触発された執筆、視覚的および聴覚的推論をサポートする。
- 異なるモダリティからの入力を組み合わせて統合出力を生み出すマルチモーダル算術を示す。
- モダリティ特有の訓練を行うことなく、画像/動画、テキスト、音声、深度、熱画像、IMUにまたがるクロスモーダル機能を達成する。
- ImageBind由来の共有埋め込み空間のため、整列した画像-テキストデータのみで訓練しているにもかかわらず、新たなクロスモーダル挙動が現れる。
- 学習設定はモデルパラメータのごく一部(Vicunaの約0.4%)を使用する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。