Skip to main content
QUICK REVIEW

[논문 리뷰] Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering

Weizhe Lin, Jinghong Chen|arXiv (Cornell University)|2023. 09. 29.
Multimodal Machine Learning Applications인용 수 9
한 줄 요약

FLMR은 RA-VQA에 토큰 수준의 다중 모달 지연 상호작용 검색을 도입하여 지식 검색 재현율을 개선하고, 보통 규모의 모델로 OK-VQA에서 강력한 VQA 성능을 달성합니다.

ABSTRACT

Knowledge-based Visual Question Answering (KB-VQA) requires VQA systems to utilize knowledge from external knowledge bases to answer visually-grounded questions. Retrieval-Augmented Visual Question Answering (RA-VQA), a strong framework to tackle KB-VQA, first retrieves related documents with Dense Passage Retrieval (DPR) and then uses them to answer questions. This paper proposes Fine-grained Late-interaction Multi-modal Retrieval (FLMR) which significantly improves knowledge retrieval in RA-VQA. FLMR addresses two major limitations in RA-VQA's retriever: (1) the image representations obtained via image-to-text transforms can be incomplete and inaccurate and (2) relevance scores between queries and documents are computed with one-dimensional embeddings, which can be insensitive to finer-grained relevance. FLMR overcomes these limitations by obtaining image representations that complement those from the image-to-text transforms using a vision model aligned with an existing text-based retriever through a simple alignment network. FLMR also encodes images and questions using multi-dimensional embeddings to capture finer-grained relevance between queries and documents. FLMR significantly improves the original RA-VQA retriever's PRRecall@5 by approximately 8\%. Finally, we equipped RA-VQA with two state-of-the-art large multi-modal/language models to achieve $\sim61\%$ VQA score in the OK-VQA dataset.

연구 동기 및 목표

  • KB-VQA를 위한 지식 검색에서 불완전한 이미지 이해를 해결한다.
  • 단일 임베딩 DPR 스타일 검색으로 인한 정보 손실을 다차원 토큰 수준 임베딩을 사용하여 완화한다.
  • 텍스트 기반 이미지 표현을 보완하기 위해 정렬된 비전-모델 시각 토큰을 포함한다.
  • 지연 상호작용을 통한 미세한 수준의 교차 모달 관련성으로 PRRecall@5와 VQA 정확도를 향상시킨다.

제안 방법

  • 쿼리와 문서에 대해 텍스트 기반 및 시각적 표현을 생성하기 위해 두 개의 인코더를 사용한다.
  • 이미지를 텍스트 기반 비전(캡션/객체)과 피처 기반 비전(전역 및 ROI 피처)으로 표현하고 이를 매핑 네트워크로 맞춘다.
  • 토큰 레벨 임베딩을 계산하고 모든 토큰 쌍(쿼리와 문서)에 걸쳐 다중 모달 지연 상호작용 점수를 적용한다.
  • 시각-언어 정렬 매핑 네트워크를 학습하여 시각 토큰을 언어 모델 공간으로 투영한다( F_V와 F_L를 정렬하기 위한 CLIP 유사 사전 학습).
  • 배치 내 대조 손실로 문서 검색(PRRecall@K)을 최적화하고 빠른 지연 상호작용 검색을 위해 PLAID로 문서를 색인한다.
  • 식에는 토큰 레벨 임베딩 Q와 D, 매핑 F_M, 그리고 지연 상호작용 r(q,d) = sum_i max_j Q_i D_j^T가 포함되며; 학습은 Eq. 4의 L_CL를 사용한다.

실험 결과

연구 질문

  • RQ1미세한 토큰 수준의 교차 모달 상호작용이 1차원 임베딩보다 KB-VQA의 지식 검색을 개선할 수 있는가?
  • RQ2텍스트 기반 비전과 함께 정렬된 비전 모델 표현을 추가하면 검색 및 다운스트림 VQA 성능이 향상되는가?
  • RQ3지연 상호작용 다중 모달 검색을 사용할 때 ROI의 세분성이 검색 및 VQA에 어떤 영향을 미치는가?
  • RQ4제안된 정렬 학습이 OK-VQA 이외의 데이터셋에서도 효율적이고 유익한가?
  • RQ5다중 모달 토큰을 통합할 때 지연 상호작용이 PRRecall@K와 VQA 점수에 미치는 영향은 무엇인가?

주요 결과

#모델기반 모델K지식 소스R@5R@10EM(정확도)VQA
1ConceptBERT--C---33.66
2KRISP--C + W---38.35
3VRR-100GS---45.08
4MAVEx--W + C + GI---39.40
5KAT-T5T5-large40W---44.25
6TRiG-EnsembleT5-large100W---54.73
7RA-VQA (joint training)T5-large50GS82.84--59.4154.48
8RA-VQAT5-large5GS81.25--51.22
  • FLMR은 원래 RA-VQA 리트리버 대비 PRRecall@5를 약 8% 높인다.
  • RA-VQA-v2와 FLMR는 OK-VQA에서 약 61%의 VQA 점수를 달성하여 비슷한 규모의 최첨단 모델과 경쟁적이다.
  • 정렬된 피처 기반 비전을 텍스트 기반 비전과 결합하면 이미지 이해를 보완하고 검색 및 VQA 성능을 향상시킨다.
  • 토큰 레벨 임베딩 간의 지연 상호작용은 DPR와 같은 단일 임베딩 검색기보다 더 미세한 관련성을 제공한다.
  • ROI 기반의 미세한 영역은 적절히 정렬될 때 검색 성능을 높이지만 ROI 수가 과하면 노이즈를 유발할 수 있다.
  • FLMR은 FVQA 및 Infoseek 검색 작업에서 일반화 가능한 개선을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.