Skip to main content
QUICK REVIEW

[論文レビュー] Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation

Yongxin Shi, Dezhi Peng|arXiv (Cornell University)|Oct 25, 2023
Handwritten Text Recognition Techniques被引用数 10
ひとこと要約

GPT-4V(ision) の OCR 能力を、場面文字、手書き、数式、表、VIE にわたって定量的にタスク全体で評価し、ラテン文字コンテンツの強みと多言語・複雑な状況での制限を浮き彫りにする。

ABSTRACT

This paper presents a comprehensive evaluation of the Optical Character Recognition (OCR) capabilities of the recently released GPT-4V(ision), a Large Multimodal Model (LMM). We assess the model's performance across a range of OCR tasks, including scene text recognition, handwritten text recognition, handwritten mathematical expression recognition, table structure recognition, and information extraction from visually-rich document. The evaluation reveals that GPT-4V performs well in recognizing and understanding Latin contents, but struggles with multilingual scenarios and complex tasks. Specifically, it showed limitations when dealing with non-Latin languages and complex tasks such as handwriting mathematical expression recognition, table structure recognition, and end-to-end semantic entity recognition and pair extraction from document image. Based on these observations, we affirm the necessity and continued research value of specialized OCR models. In general, despite its versatility in handling diverse OCR tasks, GPT-4V does not outperform existing state-of-the-art OCR models. How to fully utilize pre-trained general-purpose LMMs such as GPT-4V for OCR downstream tasks remains an open problem. The study offers a critical reference for future research in OCR with LMMs. Evaluation pipeline and results are available at https://github.com/SCUT-DLVCLab/GPT-4V_OCR.

研究の動機と目的

  • GPT-4V(ision) の OCR パフォーマンスを多様なタスク(STR、HTR、HMER、TSR、VIE)に渡って評価する。
  • ラテン文字と非ラテン文字コンテンツ、ならびに複雑な状況における長所と限界を特定する。
  • 専門 OCR モデルの継続的価値に関する指針と、OCR 研究で LMM を活用する可能性を提供する。

提案手法

  • 各 OCR タスクごとに慎重に設計されたプロンプトとウェブベースのインターフェースを用いた専用評価パイプラインを通じて GPT-4V を評価する。
  • 標準 OCR ベンチマークを使用する: STR (CUTE80, SCUT-CTW1500, Total-Text, WordArt, ReCTS, MLT19), HTR (IAM, CASIA-HWDB), HMER (CROHME2014, HME100K), TSR (SciTSR, WTW), VIE (FUNSD, XFUND-zh)。
  • WAICS、精度/再現率/F1、WER/CER、AR/CR、1-NED(該当する場合)を用いて語レベルおよびエンドツーエンド認識を評価する。
  • 画像をリサイズして認識性能を観察し、入力解像度の影響を調査する。
  • 強み(ラテン文字コンテンツ)と弱み(多言語・複雑なレイアウト)を示す定性的例を強調する。
  • 最先端の専門 OCR モデルと比較して GPT-4V の結果を比較し、下流 OCR タスクへの影響を議論する。
Figure 1: Illustration of word-level scene text recognition. In the answers of GPT-4V, we highlight the characters that match the GT in green and characters that do not match in red. GPT-4V can recognize curved, slanted, and artistic English text, while common-style Chinese text can not be recognize
Figure 1: Illustration of word-level scene text recognition. In the answers of GPT-4V, we highlight the characters that match the GT in green and characters that do not match in red. GPT-4V can recognize curved, slanted, and artistic English text, while common-style Chinese text can not be recognize

実験結果

リサーチクエスチョン

  • RQ1英語と非英語の言語を横断する場面文字認識で、GPT-4V はどのように機能するか?
  • RQ2手書き文字認識における GPT-4V の能力と制限(中国語を含む)とは?
  • RQ3手書きの数式認識、表構造認識、視覚的に豊富な文書からの情報抽出を GPT-4V はどの程度処理できるか?
  • RQ4一般目的の LMM は様々なタスクで専門 OCR モデルを置換または補完できる程度か?
  • RQ5GPT-4V の OCR パフォーマンスを向上させる戦略(意味理解、微調整、データ構築)とは?

主な発見

方法CUTE80SCUT-CTW1500Total-TextWordArtReCTS
GPT-4V88.0%62.0%66.0%62.0%0
Supervised-SOTA98.6%87.0%90.1%68.2%97.4%
  • GPT-4V はラテン/英語コンテンツの認識に強いが、ReCTS で中国語の場面文字にはゼロ精度。
  • 英語および一部の非ラテン言語(フランス語、ドイツ語、イタリア語)は、非ラテンアルファベットを上回り、多言語OCRの制限を示唆。
  • 入力解像度は認識性能に正の影響を与え、英語サブセット (MLT19) で高解像度は精度/再現率/F1 を向上させる。
  • GPT-4V は手書き文字、特に中国語の筆記体や複雑な書体に苦戦し、中国語出力で幻視的な誤りを示す。
  • HMER、TSR、VIE タスクでは、GPT-4V は監督付き SOTA に及ばず、長い表での内容欠落や複雑なレイアウトでの難しさが顕著。
  • SER および Pair Extraction の結果は、実体レベル F1(SER)は中程度、対抽出性能は低く、1-NED が高いことは整合性の課題を示す;XFUND-zh は中国語文字認識の制限のため特に弱い結果となる。
Figure 2: Illustration of handwritten text recognition. (a), (b), (c), and (d) are samples of page-level IAM, line-level IAM, page-level CASIA-HWDB, and line-level CASIA-HWDB, respectively. In the responses of GPT-4V, we highlight characters that match the GT in green and characters that do not matc
Figure 2: Illustration of handwritten text recognition. (a), (b), (c), and (d) are samples of page-level IAM, line-level IAM, page-level CASIA-HWDB, and line-level CASIA-HWDB, respectively. In the responses of GPT-4V, we highlight characters that match the GT in green and characters that do not matc

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。