Skip to main content
QUICK REVIEW

[論文レビュー] KOSMOS-2.5: A Multimodal Literate Model

Tengchao Lv, Yupan Huang|arXiv (Cornell University)|Sep 20, 2023
Handwritten Text Recognition Techniques被引用数 8
ひとこと要約

Kosmos-2.5 は、スペースに配慮したテキストブロックとマークダウン形式のテキスト出力の2つの書き起こしタスクを実行する、テキスト集約画像上で事前学習されたデコーダー専用のマルチモーダルリテラモデルである。エンドツーエンドの文書テキスト認識と画像からのマークダウン生成で評価される。

ABSTRACT

The automatic reading of text-intensive images represents a significant advancement toward achieving Artificial General Intelligence (AGI). In this paper we present KOSMOS-2.5, a multimodal literate model for machine reading of text-intensive images. Pre-trained on a large-scale corpus of text-intensive images, KOSMOS-2.5 excels in two distinct yet complementary transcription tasks: (1) generating spatially-aware text blocks, where each block of text is assigned spatial coordinates within the image, and (2) producing structured text output that captures both style and structure in markdown format. This unified multimodal literate capability is achieved through a shared decoder-only autoregressive Transformer architecture and task-specific prompts. Building on this foundation, we fine-tune KOSMOS-2.5 for document understanding tasks, resulting in a document understanding generalist named KOSMOS-2.5-CHAT. Additionally, a large corpus of 357.4 million document pages spanning diverse domains was curated for pre-training. We evaluate KOSMOS-2.5 on two newly proposed benchmarks, OCREval and MarkdownEval, for document-level text recognition and image-to-markdown generation, demonstrating impressive literate capabilities comparable to GPT-4o. KOSMOS-2.5-CHAT achieves performance comparable to other state-of-the-art generalists that are five times larger (1.3B vs. 7B) across nine text-rich visual question answering benchmarks. Models and code have been available at \url{https://aka.ms/kosmos25}.

研究の動機と目的

  • テキスト集約画像の単純なテキスト抽出を超えた機械読解の進展を動機づける。
  • テキストブロックの空間座標とマークダウン形式のテキスト出力を生成できる統一モデルを開発する。
  • タスク固有プロンプトを備えた共有Transformerを活用し、双方向の書き起こしタスクを可能にする。
  • 多様で大規模なテキスト-画像コーパスで事前学習し、一般的なマルチモーダルリテラ能力を支える。
  • 実世界のテキスト豊富な画像理解タスクに対して、Few-shotおよびZero-shotの能力を示す。

提案手法

  • ViTベースのビジョンエンコーダと、再サンプラでつなぐTransformerベースの言語デコーダを使用する。
  • デコーダー専用Transformerを採用し、画像とプロンプト文脈に条件付けて出力を生成する。
  • 二重の書き起こしタスクを訓練する: (1) 境界ボックス付きの空間的に意識したテキストブロック、(2) 構造化されたマークダウンテキスト出力。
  • テキスト行を境界ボックスまたはマークダウンテキストとして表現し、レイアウトベースまたはマークダウンベースの入力/出力を可能にする。
  • 大規模で多様なレイアウトベースおよびマークアップベースのデータを、専門化された入力表現と座標トークンを用いて事前学習する。
  • エンドツーエンドの文書テキスト認識と画像からのマークダウン生成の指標で評価する。

実験結果

リサーチクエスチョン

  • RQ1 Kosmos-2.5 はテキスト集約画像のテキスト認識とレイアウトの保持を正確に行えるか?
  • RQ2 単一のモデルが異なるプロンプト下で空間的に認識されたテキストブロックとマークダウン形式の出力の両方を生成できるか?
  • RQ3 テキスト認識と画像からのマークダウンタスクにおける Kosmos-2.5 の性能は、専門ベースラインと比べてどうか?
  • RQ4 トレーニングデータの多様性が、異なる文書タイプへの一般化にどのような影響を与えるか?

主な発見

  • Kosmos-2.5 は FUNSD、SROIE、CORD の各データセットにおける F1 で Google Document OCR を上回る(0.33%、2.45%、1.35% のそれぞれ)。
  • 画像からのマークダウン生成では、Kosmos-2.5 が対応データセットで Nougat BASE より NED が 33.68% 高く(95.09% 対 61.41%)、NTED が 33.38% 高く(90.64% 対 68.53%)。
  • Kosmos-2.5 は Nougat ベースラインに対して、一般文書/ NED で 91.59%/82.08%、README で 95.09%/91.18%、Tables で 85.14%/90.64% の NTED/NED の比較を達成。
  • より広く多様な事前学習データミックスによって、学術論文領域を超えた文書タイプへの一般化が改善される。
  • Kosmos-2.5 は評価タスクを実行するためのタスク特化の微調整を必要とせず、強力なZero-shot/Few-shot能力を示す。
  • アーキテクチャはレイアウトベースとマークダウンベースの書き起こしを単一のデコーダ専用フレームワークに統合し、下流タスクのインターフェースを簡素化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。