[논문 리뷰] Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering
FLMR은 RA-VQA에 토큰 수준의 다중 모달 지연 상호작용 검색을 도입하여 지식 검색 재현율을 개선하고, 보통 규모의 모델로 OK-VQA에서 강력한 VQA 성능을 달성합니다.
Knowledge-based Visual Question Answering (KB-VQA) requires VQA systems to utilize knowledge from external knowledge bases to answer visually-grounded questions. Retrieval-Augmented Visual Question Answering (RA-VQA), a strong framework to tackle KB-VQA, first retrieves related documents with Dense Passage Retrieval (DPR) and then uses them to answer questions. This paper proposes Fine-grained Late-interaction Multi-modal Retrieval (FLMR) which significantly improves knowledge retrieval in RA-VQA. FLMR addresses two major limitations in RA-VQA's retriever: (1) the image representations obtained via image-to-text transforms can be incomplete and inaccurate and (2) relevance scores between queries and documents are computed with one-dimensional embeddings, which can be insensitive to finer-grained relevance. FLMR overcomes these limitations by obtaining image representations that complement those from the image-to-text transforms using a vision model aligned with an existing text-based retriever through a simple alignment network. FLMR also encodes images and questions using multi-dimensional embeddings to capture finer-grained relevance between queries and documents. FLMR significantly improves the original RA-VQA retriever's PRRecall@5 by approximately 8\%. Finally, we equipped RA-VQA with two state-of-the-art large multi-modal/language models to achieve $\sim61\%$ VQA score in the OK-VQA dataset.
연구 동기 및 목표
- KB-VQA를 위한 지식 검색에서 불완전한 이미지 이해를 해결한다.
- 단일 임베딩 DPR 스타일 검색으로 인한 정보 손실을 다차원 토큰 수준 임베딩을 사용하여 완화한다.
- 텍스트 기반 이미지 표현을 보완하기 위해 정렬된 비전-모델 시각 토큰을 포함한다.
- 지연 상호작용을 통한 미세한 수준의 교차 모달 관련성으로 PRRecall@5와 VQA 정확도를 향상시킨다.
제안 방법
- 쿼리와 문서에 대해 텍스트 기반 및 시각적 표현을 생성하기 위해 두 개의 인코더를 사용한다.
- 이미지를 텍스트 기반 비전(캡션/객체)과 피처 기반 비전(전역 및 ROI 피처)으로 표현하고 이를 매핑 네트워크로 맞춘다.
- 토큰 레벨 임베딩을 계산하고 모든 토큰 쌍(쿼리와 문서)에 걸쳐 다중 모달 지연 상호작용 점수를 적용한다.
- 시각-언어 정렬 매핑 네트워크를 학습하여 시각 토큰을 언어 모델 공간으로 투영한다( F_V와 F_L를 정렬하기 위한 CLIP 유사 사전 학습).
- 배치 내 대조 손실로 문서 검색(PRRecall@K)을 최적화하고 빠른 지연 상호작용 검색을 위해 PLAID로 문서를 색인한다.
- 식에는 토큰 레벨 임베딩 Q와 D, 매핑 F_M, 그리고 지연 상호작용 r(q,d) = sum_i max_j Q_i D_j^T가 포함되며; 학습은 Eq. 4의 L_CL를 사용한다.
실험 결과
연구 질문
- RQ1미세한 토큰 수준의 교차 모달 상호작용이 1차원 임베딩보다 KB-VQA의 지식 검색을 개선할 수 있는가?
- RQ2텍스트 기반 비전과 함께 정렬된 비전 모델 표현을 추가하면 검색 및 다운스트림 VQA 성능이 향상되는가?
- RQ3지연 상호작용 다중 모달 검색을 사용할 때 ROI의 세분성이 검색 및 VQA에 어떤 영향을 미치는가?
- RQ4제안된 정렬 학습이 OK-VQA 이외의 데이터셋에서도 효율적이고 유익한가?
- RQ5다중 모달 토큰을 통합할 때 지연 상호작용이 PRRecall@K와 VQA 점수에 미치는 영향은 무엇인가?
주요 결과
| # | 모델 | 기반 모델 | K | 지식 소스 | R@5 | R@10 | EM(정확도) | VQA | |
|---|---|---|---|---|---|---|---|---|---|
| 1 | ConceptBERT | - | - | C | - | - | - | 33.66 | |
| 2 | KRISP | - | - | C + W | - | - | - | 38.35 | |
| 3 | VRR | - | 100 | GS | - | - | - | 45.08 | |
| 4 | MAVEx | - | - | W + C + GI | - | - | - | 39.40 | |
| 5 | KAT-T5 | T5-large | 40 | W | - | - | - | 44.25 | |
| 6 | TRiG-Ensemble | T5-large | 100 | W | - | - | - | 54.73 | |
| 7 | RA-VQA (joint training) | T5-large | 50 | GS | 82.84 | - | - | 59.41 | 54.48 |
| 8 | RA-VQA | T5-large | 5 | GS | 81.25 | - | - | 51.22 |
- FLMR은 원래 RA-VQA 리트리버 대비 PRRecall@5를 약 8% 높인다.
- RA-VQA-v2와 FLMR는 OK-VQA에서 약 61%의 VQA 점수를 달성하여 비슷한 규모의 최첨단 모델과 경쟁적이다.
- 정렬된 피처 기반 비전을 텍스트 기반 비전과 결합하면 이미지 이해를 보완하고 검색 및 VQA 성능을 향상시킨다.
- 토큰 레벨 임베딩 간의 지연 상호작용은 DPR와 같은 단일 임베딩 검색기보다 더 미세한 관련성을 제공한다.
- ROI 기반의 미세한 영역은 적절히 정렬될 때 검색 성능을 높이지만 ROI 수가 과하면 노이즈를 유발할 수 있다.
- FLMR은 FVQA 및 Infoseek 검색 작업에서 일반화 가능한 개선을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.