QUICK REVIEW

[论文解读] TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

Yuliang Liu, Biao Yang|arXiv (Cornell University)|Mar 7, 2024

Natural Language Processing Techniques被引用 12

一句话总结

TextMonkey 是一个无需 OCR 的大规模多模态模型，用于以文本为中心的文档理解，使用 Shifted Window Attention、令牌重采样器和文本定位来提升高分辨率的视觉-文本推理，在场景文本、文档和 OCR 基准测试上取得显著提升。

ABSTRACT

We present TextMonkey, a large multimodal model (LMM) tailored for text-centric tasks. Our approach introduces enhancement across several dimensions: By adopting Shifted Window Attention with zero-initialization, we achieve cross-window connectivity at higher input resolutions and stabilize early training; We hypothesize that images may contain redundant tokens, and by using similarity to filter out significant tokens, we can not only streamline the token length but also enhance the model's performance. Moreover, by expanding our model's capabilities to encompass text spotting and grounding, and incorporating positional information into responses, we enhance interpretability. It also learns to perform screenshot tasks through finetuning. Evaluation on 12 benchmarks shows notable improvements: 5.2% in Scene Text-Centric tasks (including STVQA, TextVQA, and OCRVQA), 6.9% in Document-Oriented tasks (such as DocVQA, InfoVQA, ChartVQA, DeepForm, Kleister Charity, and WikiTableQuestions), and 2.8% in Key Information Extraction tasks (comprising FUNSD, SROIE, and POIE). It outperforms in scene text spotting with a 10.9\% increase and sets a new standard on OCRBench, a comprehensive benchmark consisting of 29 OCR-related assessments, with a score of 561, surpassing previous open-sourced large multimodal models for document understanding. Code will be released at https://github.com/Yuliang-Liu/Monkey.

研究动机与目标

倡导无需 OCR 的文档理解方法，以避免 OCR 错误和外部流水线。
开发一个高分辨率的跨窗口多模态编码器，能够处理文档与场景中的密集文本。
引入令牌重采样策略，在不丢失关键信息的前提下减少令牌冗余。
实现文本识别与文本定位，以提高可解释性并减少基于大语言模型的回答中的幻觉。
在包含 OCRBench 的广泛基准测试中展示出强大的实证提升。

提出的方法

使用滑动窗口模块将高分辨率图像划分为不重叠的 448x448 窗口。
在每个窗口内，应用来自 CLIP 的 transformer 块；使用带零初始化的 Shifted Window Attention 以实现跨窗口连通性。
使用具有 256 个可学习查询的图像重采样器将视觉特征压缩到固定长度（256）并保留二维位置编码。
引入令牌重采样器，通过基于相似度的准则（1 - 最大令牌相似度）选择重要令牌以减少令牌长度，然后使用跨注意力重新聚合特征。
联合处理图像特征与大型语言模型（7.7B）以生成答案，从而实现跨任务的无需 OCR 的端到端推理。
结合位置感知任务（文本识别、阅读文本、VQA 定位）和结构化数据微调，以改善文本与位置信息之间的对齐。
在面向场景文本和文档理解的多样化公开数据集混合上训练，随后进行结构化数据微调阶段，以形成 TextMonkey†。

实验结果

研究问题

RQ1无需 OCR 的大规模多模态模型如何在不倚赖外部 OCR 工具的情况下处理高分辨率、密集文本的文档图像？
RQ2跨窗口连通性和令牌压缩能否提升跨场景和文档的文本识别与定位？
RQ3将文本识别与文本定位结合是否能提升可解释性并减少基于大语言模型的回答中的幻觉？
RQ4与先前开源 LMM 相比，无 OCR 方法在场景文本、文档导向和 KIE 基准上的提升如何？

主要发现

TextMonkey 在场景文本为中心的 VQA 任务（STVQA、TextVQA、OCRVQA）上实现了 5.2% 的提升。
TextMonkey 在文档导向的 VQA 任务（DocVQA、InfoVQA、ChartVQA、DeepForm、Kleister Charity、WikiTableQuestions）上提升了 6.9%。
TextMonkey 在关键信息提取任务（FUNSD、SROIE、POIE）上提升了 2.8%。
TextMonkey 在 Total-Text、CTW1500 和 ICDAR 2015 的场景文本识别准确率上实现了 10.9% 的提升。
TextMonkey 在 OCRBench 上取得新分数 561（29 项与 OCR 相关的评估），超过先前的开源 LMM 在文档理解上的表现。
TextMonkey† 进一步提升：61.2%（STVQA/DocVQA/ChartQA/InfoVQA）以及某些配置在类似 OCRBench 的综合评估指标中达到 72.2%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。