Skip to main content
QUICK REVIEW

[論文レビュー] DeepSeek-VL: Towards Real-World Vision-Language Understanding

Haoyu Lu, Wen Liu|arXiv (Cornell University)|Mar 8, 2024
Multimodal Machine Learning Applications被引用数 43
ひとこと要約

tldr: DeepSeek-VL は、ハイブリッド高解像度エンコーダー、3段階のトレーニングパイプライン、1.3B および 7B のバリアントを備え、現実世界の VL タスクと実ユーザーとの対話を目的としたオープンソースのビジョンと言語モデルです。

ABSTRACT

We present DeepSeek-VL, an open-source Vision-Language (VL) Model designed for real-world vision and language understanding applications. Our approach is structured around three key dimensions: We strive to ensure our data is diverse, scalable, and extensively covers real-world scenarios including web screenshots, PDFs, OCR, charts, and knowledge-based content, aiming for a comprehensive representation of practical contexts. Further, we create a use case taxonomy from real user scenarios and construct an instruction tuning dataset accordingly. The fine-tuning with this dataset substantially improves the model's user experience in practical applications. Considering efficiency and the demands of most real-world scenarios, DeepSeek-VL incorporates a hybrid vision encoder that efficiently processes high-resolution images (1024 x 1024), while maintaining a relatively low computational overhead. This design choice ensures the model's ability to capture critical semantic and detailed information across various visual tasks. We posit that a proficient Vision-Language Model should, foremost, possess strong language abilities. To ensure the preservation of LLM capabilities during pretraining, we investigate an effective VL pretraining strategy by integrating LLM training from the beginning and carefully managing the competitive dynamics observed between vision and language modalities. The DeepSeek-VL family (both 1.3B and 7B models) showcases superior user experiences as a vision-language chatbot in real-world applications, achieving state-of-the-art or competitive performance across a wide range of visual-language benchmarks at the same model size while maintaining robust performance on language-centric benchmarks. We have made both 1.3B and 7B models publicly accessible to foster innovations based on this foundation model.

研究の動機と目的

  • 現実世界のシナリオに適した、汎用的でオープンソースのビジョンと言語モデルを作成する(ウェブページ、PDF、チャート、OCR、知識コンテンツなど)。
  • 推論を効率化するため、固定トークン予算内で高解像度の画像処理を実現するアーキテクチャを設計する。
  • 言語能力を強く維持しつつ、堅牢なマルチモーダル理解を可能にするトレーニング戦略を開発する。
  • 研究と実用的な応用を促進するため、公開可能な 1.3B および 7B のモデルバリアントを提供する。

提案手法

  • ハイブリッドビジョンエンコーダーを用いる(384x384には SigLIP-L、1024x1024 には SAM-B)で、言語モデルのために576トークンを生成する。
  • 視覚特徴と言語モデルを橋渡しするビジョン言語アダプタを、2層の MLP を介して組み込み、最終的な埋め込み段を続ける。
  • 言語能力を保ちながら、豊富な言語データの割合を維持(少なくとも70%)してマルチモーダル objective でプリトレインし、モダリティ・ウォームアップ戦略を採用する。
  • 三段階のトレーニングパイプライン:Stage 1 は固定エンコーダと LLM で VL アダプタを訓練する;Stage 2 はバランスの取れたモダリティ比で VL の共同事前学習を行う;Stage 3 は対話機能のための監視付きファインチューニング。
  • 1.3B から 7B モデルへスケールした実験で、訓練を安定化し指示に従う能力を高めるための instruction-tuning データを含める。

実験結果

リサーチクエスチョン

  • RQ1オープンソースの構成要素を用いて、高解像度で現実世界に適した VL モデルをどのように構築できるか?
  • RQ2言語能力を保持しつつ、強力なマルチモーダル理解を実現するトレーニング戦略は何か?
  • RQ3ハイブリッド視覚エンコーダは、OCR やチャートのような微細なタスクで、単一エンコーダ設計と比べて性能を向上させるか?
  • RQ41.3Bスケールの実験は、実世界ベンチマークに対して7Bモデルへ効果的に移行できるか?

主な発見

  • The DeepSeek-VL ファミリーは、同じモデルサイズで幅広い視覚-言語ベンチマークにおいて最先端または競争力のある性能を達成します。
  • ハイブリッド視覚エンコーダは、固定トークン予算(576トークン)で1024x1024の画像を処理できるようにします。
  • モダリティ・ウォームアップと、言語+マルチモーダル学習のバランスの取れた比率は、言語忘却を緩和しつつマルチモーダル能力を向上させる。
  • 1.3B および 7B のバリアントを公に公開することは、現実世界の VL タスクにおける研究と実用展開を促進することを目指します。
  • トレーニングパイプラインは、マルチモーダル事前学習中の言語スキルの保存を強調し、ウェブ、文書、チャートを網羅する多様なデータミックスに依拠します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。