[论文解读] Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction
引入基于地面化的多模态通用信息提取(MUIE)以及名为 Reamo 的多模态大型语言模型,能够在文本、音频、图像和视频输入中识别并对信息进行定位,同时提出用于评估的新基准数据集。
In the field of information extraction (IE), tasks across a wide range of modalities and their combinations have been traditionally studied in isolation, leaving a gap in deeply recognizing and analyzing cross-modal information. To address this, this work for the first time introduces the concept of grounded Multimodal Universal Information Extraction (MUIE), providing a unified task framework to analyze any IE tasks over various modalities, along with their fine-grained groundings. To tackle MUIE, we tailor a multimodal large language model (MLLM), Reamo, capable of extracting and grounding information from all modalities, i.e., recognizing everything from all modalities at once. Reamo is updated via varied tuning strategies, equipping it with powerful capabilities for information recognition and fine-grained multimodal grounding. To address the absence of a suitable benchmark for grounded MUIE, we curate a high-quality, diverse, and challenging test set, which encompasses IE tasks across 9 common modality combinations with the corresponding multimodal groundings. The extensive comparison of Reamo with existing MLLMs integrated into pipeline approaches demonstrates its advantages across all evaluation dimensions, establishing a strong benchmark for the follow-up research. Our resources are publicly released at https://haofei.vip/MUIE.
研究动机与目标
- 将跨文本、音频、图像和视频等多模态的信息抽取任务(NER、RE、EE)统一到一个单一的地面化框架中。
- 开发一个多模态大型语言模型(Reamo),能够一次性从所有模态中提取并定位信息。
- 创建并发布一个高质量的用于基于地面化的 MUIE 的基准数据集,覆盖 9 种模态组合及其定位。
- 实现细粒度的跨模态定位与评估,推动超越文本中心的 IE 方法。
提出的方法
- 提出基于地面化的 MUIE 任务,并将输出形式正式化为 UIE 标签和跨模态的细粒度定位。
- 设计 Reamo,一种多模态 LLM,使用 ImageBind 作为多模态编码器,Vicuna 作为 LLM 骨干,并配备模块化的定位解码器(视觉用 SEEM,音频用 SHAS)。
- 通过对文本数据进行 UIE 指令微调、使用 X-caption 数据进行多模态对齐,以及使用带短语定位数据集进行细粒度定位微调来微调 Reamo。
- 采用流水线方法,让 Reamo 执行 UIE,然后下游的定位模块在图像、视频轨道和音频片段中产生对象/分段的定位。
- 构建一个覆盖 9 种模态组合、包含模态共享与模态特定定位的 3,000 个测试样例的评估基准,以评估定位准确性和信息抽取性能。
实验结果
研究问题
- RQ1在基于地面化的 MUIE 框架下,如何将 IE 任务(NER、RE、EE)统一到文本、图像、音频和视频模态?
- RQ2是否可以让专门的多模态 LLM(Reamo)在所有模态下共同执行信息抽取和细粒度的多模态定位?
- RQ3定位可用性和模态对齐如何影响在多样化模态组合中的 IE 性能?
- RQ4哪些基准和评测协议最能衡量基于地面化的 MUIE 能力并为未来工作设定标准?
主要发现
- 与现有多模态大模型相比,Reamo 在文本+图像、文本+音频、文本+视频以及纯模态输入上都显示出强大的零-shot 性能。
- 在 NER、RE、EE 任务上,Reamo 的表现优于流水线基线,并提供更强的多模态定位能力(图像分割、音频分割、视频跟踪)。
- 在模态错配情景下模型保持健壮,在模态共享和模态特定设置中均超越基线。
- 零-shot 结果在复杂的模态混合场景(如文本+图像+音频、文本+视频+音频)中显示出一致的增益。
- 随着实体/对象数量增加,定位能力和 IE 准确率通常呈现较为平滑的下降,Reamo 仍然保持相对于基线的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。