QUICK REVIEW

[논문 리뷰] TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

Yuliang Liu, Biao Yang|arXiv (Cornell University)|2024. 03. 07.

Natural Language Processing Techniques인용 수 12

한 줄 요약

TextMonkey는 텍스트 중심 문서 이해를 위한 OCR 없이 작동하는 대형 다중모달 모델로, Shifted Window Attention, 토큰 리샘플러, 텍스트 그라운딩을 사용하여 고해상도 시각-텍스트 추론을 개선하고 장면 텍스트, 문서, OCR 벤치마크에서 강력한 향상을 달성합니다.

ABSTRACT

We present TextMonkey, a large multimodal model (LMM) tailored for text-centric tasks. Our approach introduces enhancement across several dimensions: By adopting Shifted Window Attention with zero-initialization, we achieve cross-window connectivity at higher input resolutions and stabilize early training; We hypothesize that images may contain redundant tokens, and by using similarity to filter out significant tokens, we can not only streamline the token length but also enhance the model's performance. Moreover, by expanding our model's capabilities to encompass text spotting and grounding, and incorporating positional information into responses, we enhance interpretability. It also learns to perform screenshot tasks through finetuning. Evaluation on 12 benchmarks shows notable improvements: 5.2% in Scene Text-Centric tasks (including STVQA, TextVQA, and OCRVQA), 6.9% in Document-Oriented tasks (such as DocVQA, InfoVQA, ChartVQA, DeepForm, Kleister Charity, and WikiTableQuestions), and 2.8% in Key Information Extraction tasks (comprising FUNSD, SROIE, and POIE). It outperforms in scene text spotting with a 10.9\% increase and sets a new standard on OCRBench, a comprehensive benchmark consisting of 29 OCR-related assessments, with a score of 561, surpassing previous open-sourced large multimodal models for document understanding. Code will be released at https://github.com/Yuliang-Liu/Monkey.

연구 동기 및 목표

문서 이해에서 OCR-free 접근법의 필요성을 제시하여 OCR 오류와 외부 파이프라인을 피한다.
문서와 장면의 밀집 텍스트를 처리할 수 있는 고해상도 교차 윈도우 다중모달 인코더를 개발한다.
중요 정보를 잃지 않으면서 토큰 중복성을 줄이는 토큰 재샘플링 전략을 도입한다.
LLM 기반 응답의 해석 가능성을 높이고 환각을 줄이기 위해 텍스트 스포팅 및 텍스트 그라운딩을 가능하게 한다.
OCRBench를 포함한 광범위한 벤치마크에서 강한 실증적 향상을 입증한다.

제안 방법

슬라이딩 윈도우 모듈을 사용하여 고해상도 이미지를 겹치지 않는 448x448 윈도우로 나눈다.
각 윈도우 내에서 CLIP의 트랜스포머 블록을 적용하고, 교차 윈도우 연결성을 가능하게 하기 위해 제로 초기화된 Shifted Window Attention을 사용한다.
시각 특징을 고정 길이(256)로 압축하고 2D 위치 인코딩을 보존하기 위해 256개의 학습 가능한 쿼리를 갖는 Image Resampler를 사용한다.
토큰 길이를 줄이기 위해 유사도 기반 기준(1 - 최대 토큰 유사도)으로 중요한 토큰을 선택하는 Token Resampler를 도입하고, 그 후 교차 주의를 사용해 특징을 재통합한다.
이미지 특징을 대형 언어 모델(7.7B)과 공동으로 처리하여 답을 생성하고, 작업 전반에 걸쳐 OCR-free 엔드투엔드 추론을 가능하게 한다.
텍스트 스포팅, 텍스트 읽기, VQA 그라운딩 등의 위치 인식 작업과 구조화된 데이터 파인튜닝을 도입하여 텍스트와 위치 정보 간 정렬을 향상시킨다.
장면 텍스트 및 문서 이해를 위한 다양한 공용 데이터셋 조합으로 학습하고, 그다음 구조화된 데이터 파인튜닝 단계를 거쳐 TextMonkey†를 형성한다.

실험 결과

연구 질문

RQ1외부 OCR 도구에 의존하지 않고 OCR-free 대형 다중모달 모델이 밀집 텍스트가 있는 고해상도 문서 이미지를 어떻게 처리할 수 있는가?
RQ2교차 윈도우 연결성 및 토큰 압축이 장면과 문서 전반의 텍스트 인식과 그라운딩을 개선할 수 있는가?
RQ3텍스트 스포팅과 텍스트 그라운딩의 통합이 LLM 기반 응답의 해석 가능성을 높이고 환각을 줄이는가?
RQ4이전 오픈 소스 LMM과 비교했을 때 장면 텍스트, 문서 지향, KIE 벤치마크에서 OCR-free 접근 방식의 이점은 무엇인가?

주요 결과

TextMonkey는 장면 텍스트 중심 VQA 과제(STVQA, TextVQA, OCRVQA)에서 5.2%의 향상을 달성한다.
문서 지향 VQA 과제(DocVQA, InfoVQA, ChartVQA, DeepForm, Kleister Charity, WikiTableQuestions)에서 6.9%의 향상을 달성한다.
핵심 정보 추출 작업(FUNSD, SROIE, POIE)에서 2.8%의 향상을 달성한다.
Total-Text, CTW1500, ICDAR 2015에서 장면 텍스트 스포팅 정확도에 10.9%의 향상을 보인다.
OCRBench 점수 561(29 OCR 관련 평가)로, 문서 이해 영역에서 이전 오픈소스 LMM들을 능가한다.
TextMonkey†은 추가로: 일부 구성에서 STVQA/DocVQA/ChartQA/InfoVQA의 61.2% 및 OCRBench 유사 평가 지표의 합계에서 72.2%의 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.