Skip to main content
QUICK REVIEW

[논문 리뷰] UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding

Hao Feng, Zijian Wang|arXiv (Cornell University)|2023. 08. 19.
Topic Modeling인용 수 9
한 줄 요약

UniDoc은 텍스트 탐지, 인식, 스팟팅 및 멀티모달 이해를 동시에 수행할 수 있는 최초의 대형 멀티모달 모델로, OCR과 일반 비전-언어 작업 전반에 걸쳐统一된 멀티모달 지시 학습으로 학습되었습니다.

ABSTRACT

In the era of Large Language Models (LLMs), tremendous strides have been made in the field of multimodal understanding. However, existing advanced algorithms are limited to effectively utilizing the immense representation capabilities and rich world knowledge inherent to these large pre-trained models, and the beneficial connections among tasks within the context of text-rich scenarios have not been sufficiently explored. In this work, we introduce UniDoc, a novel multimodal model equipped with text detection and recognition capabilities, which are deficient in existing approaches. Moreover, UniDoc capitalizes on the beneficial interactions among tasks to enhance the performance of each individual task. To implement UniDoc, we perform unified multimodal instruct tuning on the contributed large-scale instruction following datasets. Quantitative and qualitative experimental results show that UniDoc sets state-of-the-art scores across multiple challenging benchmarks. To the best of our knowledge, this is the first large multimodal model capable of simultaneous text detection, recognition, spotting, and understanding.

연구 동기 및 목표

  • 단일 모델에서 텍스트가 풍부한 이미지의 이해에서의 격차를 해소하고 동시에 텍스트 탐지, 인식, 스팟팅 및 멀티모달 이해를 가능하게 한다.
  • 대형 언어 모델의 세계 지식과 멀티모달 사전 학습을 활용하여 교차 작업 상호작용을 통해 OCR 관련 작업을 개선한다.
  • 텍스트 탐지, 인식, 스팟팅 및 이해를 위한 대규모 멀티모달 지시 순응 데이터셋을 만들고 활용한다.
  • 공개 OCR 및 멀티모달 벤치마크에서 최첨단 성능을 입증하고 통합 멀티모달 튜닝의 이점을 분석한다.

제안 방법

  • 시각 인코더로 CLIP-ViT-L/14를 사용하여 입력 이미지에서 특징을 추출한다.
  • 시각 특징을 LLM 임베딩 공간으로 투사하고 이를 토큰화된 자연어 지시와 결합한다.
  • Vicuna를 언어 모델로 사용하고 두 단계(전-학습 및 미세 조정)에서 통합 멀티모달 지시 학습을 수행한다.
  • 고정된 시각 및 언어 모델로 전처리 학습을 진행하고 모달리티를 정렬하기 위한 선형 프로젝터를 학습시킨 뒤, OCR 및 멀티모달 작업으로 LLM과 프로젝터를 모두 풀고 미세 조정한다.
  • 전처리 학습 중 네 가지 작업(캡션 작성, 탐지, 인식, 스팟팅)에서 지시 학습을 수행하고 미세 조정 시 멀티모달 이해로 확장한다.

실험 결과

연구 질문

  • RQ1하나의 대형 멀티모달 모델이 텍스트가 풍부한 이미지에서 텍스트 탐지, 인식, 스팟팅 및 멀티모달 이해를 함께 수행할 수 있는가?
  • RQ2통합 멀티모달 지시 학습 중 교차 작업 상호작용이 개별 OCR 및 이해 능력을 향상시키는가?
  • RQ3작업 형식화, 지시 유형 및 학습 단계가 OCR 및 멀티모달 이해 성능에 어떤 영향을 미치는가?
  • RQ4학습 데이터 외의 텍스트가 풍부한 시나리오에 대해 UniDoc이 얼마나 잘 일반화되는가?

주요 결과

  • UniDoc은 텍스트가 풍부한 이미지에서 텍스트 탐지, 인식, 멀티모달 이해에 대해 다수 벤치마크에서 최첨단 점수를 달성한다.
  • 통합 멀티모달 지시 학습은 OCR 작업 간의 상호 작용을 유익하게 만들어 전반적인 성능을 향상시킨다.
  • 스팟팅 기반 지시가 다른 지시 유형에 비해 탐지 및 인식 정확도를 개선한다.
  • 모델은 비정상적인 텍스트 레이아웃과 다양한 글꼴을 포함한 텍스트가 풍부한 시나리오에서 강한 일반화를 보인다.
  • 절단 연구에서 탐지, 인식 및 스팟팅을 공동으로 학습시키는 것이 전처리 및 미세 조정 단계 모두에서 최상의 결과를 낳는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.