Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation

Yongxin Shi, Dezhi Peng|arXiv (Cornell University)|2023. 10. 25.
Handwritten Text Recognition Techniques인용 수 10
한 줄 요약

집합적, 과제 전반의 평가로 GPT-4V(ision)의 OCR 능력을 장면 텍스트, 손글씨, 수식, 표, VIE 전반에 걸쳐 정량적으로 평가하고, 라틴 콘텐츠의 강점과 다국어 및 복합 시나리오에서의 한계를 지적한다.

ABSTRACT

This paper presents a comprehensive evaluation of the Optical Character Recognition (OCR) capabilities of the recently released GPT-4V(ision), a Large Multimodal Model (LMM). We assess the model's performance across a range of OCR tasks, including scene text recognition, handwritten text recognition, handwritten mathematical expression recognition, table structure recognition, and information extraction from visually-rich document. The evaluation reveals that GPT-4V performs well in recognizing and understanding Latin contents, but struggles with multilingual scenarios and complex tasks. Specifically, it showed limitations when dealing with non-Latin languages and complex tasks such as handwriting mathematical expression recognition, table structure recognition, and end-to-end semantic entity recognition and pair extraction from document image. Based on these observations, we affirm the necessity and continued research value of specialized OCR models. In general, despite its versatility in handling diverse OCR tasks, GPT-4V does not outperform existing state-of-the-art OCR models. How to fully utilize pre-trained general-purpose LMMs such as GPT-4V for OCR downstream tasks remains an open problem. The study offers a critical reference for future research in OCR with LMMs. Evaluation pipeline and results are available at https://github.com/SCUT-DLVCLab/GPT-4V_OCR.

연구 동기 및 목표

  • GPT-4V(ision)의 OCR 성능을 다양한 작업(STR, HTR, HMER, TSR, VIE)에서 평가한다.
  • 라틴 콘텐츠와 비라틴 콘텐츠, 그리고 복합 시나리오에서의 강점과 한계를 식별한다.
  • 전문 OCR 모델의 지속적 가치에 대한 가이드를 제공하고 OCR 연구를 위한 LMM의 활용 가능성을 논의한다.

제안 방법

  • 각 OCR 작업에 대해 웹 기반 인터페이스를 사용한 전용 평가 파이프라인을 통해 GPT-4V를 평가한다.
  • 표준 OCR 벤치마크를 사용한다: STR (CUTE80, SCUT-CTW1500, Total-Text, WordArt, ReCTS, MLT19), HTR (IAM, CASIA-HWDB), HMER (CROHME2014, HME100K), TSR (SciTSR, WTW), VIE (FUNSD, XFUND-zh).
  • 단어 수준 및 엔드 투 엔드 인식에 대해 WAICS, 정확도/재현율/F1, WER/CER, AR/CR, 및 1-NED를 가능하면 평가합니다.
  • 입력 해상도 효과를 확인하기 위해 이미지를 재조정하고 인식 성능을 관찰한다.
  • 강점(라틴 콘텐츠)과 약점(다국어, 복잡한 레이아웃)을 설명하는 질적 예시를 강조한다.
  • GPT-4V의 결과를 최첨단 전문 OCR 모델과 비교하고 다운스트림 OCR 작업에 대한 시사점을 논의한다.
Figure 1: Illustration of word-level scene text recognition. In the answers of GPT-4V, we highlight the characters that match the GT in green and characters that do not match in red. GPT-4V can recognize curved, slanted, and artistic English text, while common-style Chinese text can not be recognize
Figure 1: Illustration of word-level scene text recognition. In the answers of GPT-4V, we highlight the characters that match the GT in green and characters that do not match in red. GPT-4V can recognize curved, slanted, and artistic English text, while common-style Chinese text can not be recognize

실험 결과

연구 질문

  • RQ1GPT-4V가 영어와 비영어권 언어의 장면 텍스트 인식에서 어떻게 수행하는가?
  • RQ2중국어를 포함한 필기 텍스트 인식에서 GPT-4V의 능력과 한계는 무엇인가?
  • RQ3안 보이는 문서에서의 수식 필기 인식, 표 구조 인식, 정보 추출은 얼마나 잘 수행되는가?
  • RQ4일반 목적 LMM이 다양한 작업에서 전문 OCR 모델을 대체하거나 보완할 수 있는 정도는 어느 정도인가?
  • RQ5GPT-4V의 OCR 성능을 향상시키는 전략은 무엇인가(의미론적 이해, 미세조정, 데이터 구성 등)?

주요 결과

방법CUTE80SCUT-CTW1500Total-TextWordArtReCTS
GPT-4V88.0%62.0%66.0%62.0%0
Supervised-SOTA98.6%87.0%90.1%68.2%97.4%
  • GPT-4V는 라틴/영문 콘텐츠에 대해 강한 인식을 보이지만 ReCTS에서 중국어 장면 텍스트에 대해 해독도가 0이다.
  • 영문 및 일부 비라틴 언어(프랑스어, 독일어, 이탈리아어)가 비라틴 알파벳에 비해 더 우수하여 다국어 OCR의 한계를 시사한다.
  • 입력 해상도가 인식 성능에 긍정적인 영향을 주며, 영어 하위집합(MLT19)에서 해상도가 높을수록 정밀도/재현율/F1이 개선된다.
  • Handwritten 텍스트, 특히 중국어 필기 및 복잡한 서체에서 GPT-4V가 어려움을 겪고 중국어 텍스트 출력에서 환각 현상을 보인다.
  • HMER, TSR, VIE 과제에서 GPT-4V는 감독된 SOTA에 비해 저조하며 긴 표에서 콘텐츠 누락 및 복잡한 레이아웃에서 어려움이 두드러진다.
  • SER 및 1-NED에서 정답 엔터티 수준 F1은 중간 정도이며 페어 추출 성능은 낮고, XFUND-zh는 중국어 문자 인식 한계로 인해 특히 낮은 결과를 보인다.
Figure 2: Illustration of handwritten text recognition. (a), (b), (c), and (d) are samples of page-level IAM, line-level IAM, page-level CASIA-HWDB, and line-level CASIA-HWDB, respectively. In the responses of GPT-4V, we highlight characters that match the GT in green and characters that do not matc
Figure 2: Illustration of handwritten text recognition. (a), (b), (c), and (d) are samples of page-level IAM, line-level IAM, page-level CASIA-HWDB, and line-level CASIA-HWDB, respectively. In the responses of GPT-4V, we highlight characters that match the GT in green and characters that do not matc

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.