[论文解读] UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding
UniDoc 展示了第一款能够同时进行文本检测、识别、定位与多模态理解的大型多模态模型,并在 OCR 与通用视觉语言任务上通过统一的多模态指令微调进行训练。
In the era of Large Language Models (LLMs), tremendous strides have been made in the field of multimodal understanding. However, existing advanced algorithms are limited to effectively utilizing the immense representation capabilities and rich world knowledge inherent to these large pre-trained models, and the beneficial connections among tasks within the context of text-rich scenarios have not been sufficiently explored. In this work, we introduce UniDoc, a novel multimodal model equipped with text detection and recognition capabilities, which are deficient in existing approaches. Moreover, UniDoc capitalizes on the beneficial interactions among tasks to enhance the performance of each individual task. To implement UniDoc, we perform unified multimodal instruct tuning on the contributed large-scale instruction following datasets. Quantitative and qualitative experimental results show that UniDoc sets state-of-the-art scores across multiple challenging benchmarks. To the best of our knowledge, this is the first large multimodal model capable of simultaneous text detection, recognition, spotting, and understanding.
研究动机与目标
- 通过在单一模型中实现文本检测、识别、定位与多模态理解,填补文本丰富图像理解的空白。
- 利用大型语言模型的世界知识与多模态预训练,通过跨任务交互提升与 OCR 相关的任务性能。
- 创建并利用一个面向文本检测、识别、定位和理解的大规模多模态指令跟随数据集。
- 在公开的 OCR 与多模态基准测试上展示最先进的性能,并分析统一多模态微调的益处。
提出的方法
- 将 CLIP-ViT-L/14 作为视觉编码器,从输入图像中提取特征。
- 将视觉特征投射到 LLM 的嵌入空间,并与令牌化的自然语言指令结合。
- 使用 Vicuna 作为语言模型,并进行两阶段的统一多模态指令微调(预训练和微调)。
- 在冻结视觉和语言模型的同时训练一个线性投影器以对齐模态;通过解冻并在 OCR 与多模态任务上优化 LLM 与投影器来微调。
- 在预训练阶段对四个任务(字幕生成、检测、识别、定位)进行指令微调,并在微调阶段扩展到多模态理解。
实验结果
研究问题
- RQ1一个单一的大型多模态模型是否能够在文本丰富的图像中联合执行文本检测、识别、定位和多模态理解?
- RQ2在统一多模态指令微调过程中,跨任务交互是否会提升单独的 OCR 与理解能力?
- RQ3任务表述、指令类型与训练阶段对 OCR 与多模态理解性能的影响是什么?
- RQ4UniDoc 在训练数据之外的文本丰富场景的泛化能力如何?
主要发现
- UniDoc 在文本丰富图像的文本检测、识别与多模态理解等多个基准上实现最先进的分数。
- 统一的多模态指令微调在 OCR 任务之间产生有益的交互,提升整体性能。
- 基于定位的指令相较于其他指令类型,提升了检测和识别的准确性。
- 模型在文本丰富场景中表现出强泛化能力,包括非规则文本布局和多样字体。
- 消融研究表明,在预训练和微调阶段联合训练检测、识别和定位可获得最佳结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。