Skip to main content
QUICK REVIEW

[論文レビュー] UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding

Hao Feng, Zijian Wang|arXiv (Cornell University)|Aug 19, 2023
Topic Modeling被引用数 9
ひとこと要約

UniDocは、OCRおよび一般的なビジョン-言語タスクを横断する統一的なマルチモーダル指示調整で訓練された、テキスト検出・認識・スポット検出・マルチモーダル理解を同時に行える初の大規模マルチモーダルモデルを提示します。

ABSTRACT

In the era of Large Language Models (LLMs), tremendous strides have been made in the field of multimodal understanding. However, existing advanced algorithms are limited to effectively utilizing the immense representation capabilities and rich world knowledge inherent to these large pre-trained models, and the beneficial connections among tasks within the context of text-rich scenarios have not been sufficiently explored. In this work, we introduce UniDoc, a novel multimodal model equipped with text detection and recognition capabilities, which are deficient in existing approaches. Moreover, UniDoc capitalizes on the beneficial interactions among tasks to enhance the performance of each individual task. To implement UniDoc, we perform unified multimodal instruct tuning on the contributed large-scale instruction following datasets. Quantitative and qualitative experimental results show that UniDoc sets state-of-the-art scores across multiple challenging benchmarks. To the best of our knowledge, this is the first large multimodal model capable of simultaneous text detection, recognition, spotting, and understanding.

研究の動機と目的

  • テキスト豊富な画像理解のギャップを解消するため、単一モデルで同時にテキスト検出・認識・スポット検出・マルチモーダル理解を実現する。
  • 大規模言語モデルの世界知識とマルチモーダル事前学習を活用して、クロス課題インタラクションを通じてOCR関連タスクを改善する。
  • テキスト検出・認識・スポット検出・理解に特化した大規模マルチモーダル指示フォロー用データセットを作成・活用する。
  • 公開OCRおよびマルチモーダルベンチマークで最先端の性能を示し、統一マルチモーダル調整の効果を分析する。

提案手法

  • 入力画像から特徴を抽出する視覚エンコーダとしてCLIP-ViT-L/14を使用する。
  • 視覚特徴をLLM埋め込み空間に射影し、トークン化された自然言語指示と組み合わせる。
  • Vicunaを言語モデルとして採用し、二段階(事前学習とファインチューニング)で統一マルチモーダル指示調整を実施する。
  • モダリティを整列させる線形プロジェクターを訓練しつつ、視覚モデルと言語モデルを凍結して事前学習を行い、ファインチューニング時に両方を解凍・最適化してOCRおよびマルチモーダルタスクを実行する。
  • 事前学習時には四つのタスク(キャプション、検出、認識、スポット検出)で指示調整を行い、ファインチューニング時にはマルチモーダル理解へと拡張する。

実験結果

リサーチクエスチョン

  • RQ1単一の大規模マルチモーダルモデルが、テキスト豊富な画像でテキスト検出・認識・スポット検出・マルチモーダル理解を同時に共同で行えるか。
  • RQ2統一マルチモーダル指示調整中のクロス課題インタラクションは、個々のOCRおよび理解能力を向上させるか。
  • RQ3課題の形式化、指示タイプ、訓練段階がOCRおよびマルチモーダル理解の性能に与える影響は何か。
  • RQ4UniDocは訓練データ外のテキスト豊富な状況へどの程度一般化できるか。

主な発見

  • UniDocはテキスト検出・認識・マルチモーダル理解の複数のベンチマークで最先端スコアを達成した。
  • 統一マルチモーダル指示調整はOCRタスク間の有益な相互作用を生み出し、全体の性能を向上させる。
  • スポット検出ベースの指示は、他の指示タイプと比べて検出・認識の精度を向上させる。
  • irregularなテキストレイアウトや多様なフォントを含むテキスト豊かな状況で強い一般化能力を示す。
  • アブレーション研究は、事前学習とファインチューニングの両方で検出・認識・スポット検出を同時訓練することが最良の結果を生むことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。