[논문 리뷰] Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction
grounded Multimodal Universal Information Extraction (MUIE)과 텍스트, 오디오, 이미지, 비디오 입력 간 정보를 인식하고 접지할 수 있는 멀티모달 LLM인 Reamo, 그리고 평가를 위한 새로운 벤치마크 데이터셋을 도입합니다.
In the field of information extraction (IE), tasks across a wide range of modalities and their combinations have been traditionally studied in isolation, leaving a gap in deeply recognizing and analyzing cross-modal information. To address this, this work for the first time introduces the concept of grounded Multimodal Universal Information Extraction (MUIE), providing a unified task framework to analyze any IE tasks over various modalities, along with their fine-grained groundings. To tackle MUIE, we tailor a multimodal large language model (MLLM), Reamo, capable of extracting and grounding information from all modalities, i.e., recognizing everything from all modalities at once. Reamo is updated via varied tuning strategies, equipping it with powerful capabilities for information recognition and fine-grained multimodal grounding. To address the absence of a suitable benchmark for grounded MUIE, we curate a high-quality, diverse, and challenging test set, which encompasses IE tasks across 9 common modality combinations with the corresponding multimodal groundings. The extensive comparison of Reamo with existing MLLMs integrated into pipeline approaches demonstrates its advantages across all evaluation dimensions, establishing a strong benchmark for the follow-up research. Our resources are publicly released at https://haofei.vip/MUIE.
연구 동기 및 목표
- 다양한 모달리티(text, audio, image, video)에서의 정보 추출 태스크(NER, RE, EE)를 하나의 grounded 프레임워크로 통합한다.
- 모든 모달리티에서 정보를 추출하고 접지할 수 있는 멀티모달 LLM(Reamo)을 개발한다.
- 9 모달 조합과 접지를 포함하는 고품질 grounded MUIE 벤치마크 데이터셋을 생성하고 공개한다.
- 텍스트 중심 IE 방법을 넘어서는 미세한 교차 모달 접지 및 평가를 가능하게 한다.
제안 방법
- grounded MUIE 태스크를 제안하고 출력 형태를 UIE 라벨과 모달리티 간의 미세한 접지로 formalize 한다.
- ImageBind를 멀티모달 인코더로, Vicuna를 LLM 백본으로 사용하고 이미지-바인딩 접지 디코더(SEEM for visual)와 오디오 접지 디코더(SHAS for audio)를 갖춘 Reamo를 설계한다.
- 텍스트 데이터에서의 UIE instruction tuning, X-caption 데이터와의 멀티모달 정렬, 구/구절 접지 데이터를 활용한 미세한 접지-튜닝으로 Reamo를 파인 튜닝한다.
- Reamo가 UIE를 수행하고 다운스트림 접지 모듈이 이미지의 객체/세그먼트 접지, 비디오 트랙, 오디오 세그먼트를 생성하는 파이프라인 접근법을 채택한다.
- 9 모달 조합에 걸친 3,000개의 테스트 인스턴스로 구성된 평가 벤치마크를 구성하여 모달리티 공유 및 모달리티 특이 접지에 따른 접지 정확도와 IE 성능을 평가한다.
실험 결과
연구 질문
- RQ1텍스트, 이미지, 오디오, 비디오 모달리티에서 grounded MUIE 프레임워크 하에 IE 태스크(NER, RE, EE)를 어떻게 통합할 수 있는가?
- RQ2전용 멀티모달 LLM(Reamo)이 모든 모달리티에서 정보 추출과 미세한 멀티모달 접지를 공동으로 수행할 수 있는가?
- RQ3접지 가능성 및 모달리티 정렬이 다양한 모달리티 조합에서 IE 성능에 어떤 영향을 미치는가?
- RQ4 grounded MUIE 능력을 가장 잘 측정하고 향후 연구를 위한 표준을 정하는 벤치마크 및 평가 프로토콜은 무엇인가?
주요 결과
- Reamo는 기존 MLLMs와 비교하여 텍스트+이미지, 텍스트+오디오, 텍스트+비디오, 순수 모달리티 입력에 대해 제로샷 성능이 뛰어남.
- Reamo는 NER, RE, EE 태스크에서 파이프라인 베이스라인보다 우수하며 이미지 세그먼트화, 오디오 세그먼트화, 비디오 트래킹 등 다중 모달 접지도 우수하게 제공한다.
- 모달리티 불일치 시나리오에서도 로버스트하며 모달리티 공유 및 모달리티 특이 설정에서 베이스라인을 능가한다.
- 제로샷 결과가 텍스트+이미지+오디오, 텍스트+비디오+오디오와 같은 복합 모달 하이브리드 시나리오에서 일관된 이점을 보여준다.
- 접지 능력 및 IE 정확도는 엔티티/객체 수가 증가함에 따라 일반적으로 완만하게 감소하지만, Reamo는 베이스라인보다 우위를 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.