[논문 리뷰] Counterfactual VQA: A Cause-Effect Look at Language Bias
이 논문은 질문이 답변에 미치는 직접적 인과적 영향을 모델링하고 총 영향에서 이를 빼는 방식으로 시각질의 질문 응답(VQA)에서 언어적 편향을 완화하는 반사적 추론 프레임워크인 CF-VQA를 제안한다. 이 방법은 데이터 증강 없이도 VQA-CP에서 최신 기술 성능을 달성하며, 다양한 백본과 융합 전략으로 일반화되면서 균형 잡힌 벤치마크에서도 강건성을 유지한다.
VQA models may tend to rely on language bias as a shortcut and thus fail to sufficiently learn the multi-modal knowledge from both vision and language. Recent debiasing methods proposed to exclude the language prior during inference. However, they fail to disentangle the "good" language context and "bad" language bias from the whole. In this paper, we investigate how to mitigate language bias in VQA. Motivated by causal effects, we proposed a novel counterfactual inference framework, which enables us to capture the language bias as the direct causal effect of questions on answers and reduce the language bias by subtracting the direct language effect from the total causal effect. Experiments demonstrate that our proposed counterfactual inference framework 1) is general to various VQA backbones and fusion strategies, 2) achieves competitive performance on the language-bias sensitive VQA-CP dataset while performs robustly on the balanced VQA v2 dataset without any augmented data. The code is available at https://github.com/yuleiniu/cfvqa.
연구 동기 및 목표
- 스põ르틱한 언어적 상관관계에 의존하는 VQA 모델이 다중모odal 추론이 아닌 언어 편향 문제를 해결하기 위해.
- 기존의 편향 제거 방법이 분리하지 못하는 '좋은' 언어적 맥락과 '나쁜' 언어 편향을 분리하기 위해.
- 데이터 증강이나 아키텍처 변경 없이 언어 편향을 감소시키는 일반화 가능한 추론 프레임워크를 개발하기 위해.
- 기존의 언어 우선 기반 방법들을 인과 추론 프레임워크 아래 통합하여 최소한의 수정으로 성능 향상을 이끌어내기 위해.
제안 방법
- 반사적 추론을 사용하여 질문이 답변에 미치는 직접적 인과적 영향을 언어 편향으로 규정한다.
- 시각 및 언어 입력을 모두 사용하는 전통적 VQA를 통해 총 인과적 영향을 추정한다.
- 시각 입력을 차단하여 질문만의 영향을 고립시킨 반사적 VQA를 통해 순수 언어 효과를 추정한다.
- 총 영향에서 직접 언어 효과를 빼서 편향 제거 추론을 계산한다.
- 학습 중에 시각-언어, 언어 전용, 시각 전용 브랜치를 포함한 앙상블 모델을 훈련한다.
- 테스트 시에는 시각-언어 브랜치만 사용하고, 추정된 직접 효과를 빼는 방식으로 편향 보정을 적용한다.
실험 결과
연구 질문
- RQ1어떻게 VQA에서 언어 편향을 유용한 언어 맥락과 효과적으로 분리할 수 있는가?
- RQ2반사적 추론 프레임워크는 데이터 증강 없이 언어 편향을 감소시킬 수 있는가?
- RQ3제안된 방법은 다양한 VQA 아키텍처와 융합 전략으로 일반화되는가?
- RQ4기존의 언어 우선 기반 방법들은 인과 추론 프레임워크 아래에서 통합되고 향상될 수 있는가?
주요 결과
- CF-VQA는 SUM 전략을 사용해 VQA-CP v1 테스트 세트에서 52.87%의 정확도를 달성하며, 베이스라인 RUBi보다 7.5% 높은 성능을 보였다.
- VQA-CP v2에서는 CF-VQA(SUM)가 도메인 내 설정에서 RandImg를 3% 이상 앞서며 52.73%의 정확도를 기록했다.
- 다양한 백본(SAN, UpDn, S-MRL)과 융합 전략(HM, SUM)을 통해 일반화되며 일관된 성능 향상을 보였다.
- CF-VQA는 RUBi를 단 한 개의 추가 가중치 매개변수만으로도 7.5% 향상시켜 강력한 호환성과 향상 잠재력을 입증했다.
- 제거 실험 결과 CF-VQA가 언어 편향을 크게 감소시키면서도 시각적 이해 능력을 유지함을 확인했으며, 모든 모델 변형에서 일관된 성과 향상을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.