[논문 리뷰] RUBi: Reducing Unimodal Biases in Visual Question Answering
RUBi는 VQA 학습 중에 질문-전용 분기를 도입하여 단일 모달 편향을 낮추고, VQA-CP v2와 같은 편향된 데이터셋에서 강건성을 향상시킵니다.
Visual Question Answering (VQA) is the task of answering questions about an image. Some VQA models often exploit unimodal biases to provide the correct answer without using the image information. As a result, they suffer from a huge drop in performance when evaluated on data outside their training set distribution. This critical issue makes them unsuitable for real-world settings. We propose RUBi, a new learning strategy to reduce biases in any VQA model. It reduces the importance of the most biased examples, i.e. examples that can be correctly classified without looking at the image. It implicitly forces the VQA model to use the two input modalities instead of relying on statistical regularities between the question and the answer. We leverage a question-only model that captures the language biases by identifying when these unwanted regularities are used. It prevents the base VQA model from learning them by influencing its predictions. This leads to dynamically adjusting the loss in order to compensate for biases. We validate our contributions by surpassing the current state-of-the-art results on VQA-CP v2. This dataset is specifically designed to assess the robustness of VQA models when exposed to different question biases at test time than what was seen during training. Our code is available: github.com/cdancette/rubi.bootstrap.pytorch
연구 동기 및 목표
- 이미지를 무시하도록 만드는 질문-모달 편향을 줄일 필요성에 대한 동기 부여.
- 학습 중 편향된 예제를 낮게 가중하는 학습 전략(RUBi)을 제안합니다.
- RUBi가 모델에 구애받지 않으며 다양한 아키텍처에서 성능을 향상시킬 수 있음을 보여줍니다.
- 편향이 있는 벤치마크에서 강건성 향상을 보여주면서도 VQA-v2의 경쟁력 있는 결과를 유지합니다.
제안 방법
- 질문-전용 분기를 학습 중 기본 VQA 모델에 연결하여 언어 편향을 포착합니다.
- 질문-전용 분기로부터 마스크를 계산하고 손실 계산 전 VQA 출력에 곱으로 적용합니다.
- 기본 VQA 모델 파라미터와 질문-전용 분기를 함께 최적화하며 두 손실: L_QM(주요)와 L_QO(질문-전용)를 사용합니다.
- 학습 후 질문-전용 분기를 제거하고 추론에는 기본 VQA 모델을 사용합니다.
- SAN 및 UpDn과 같은 아키텍처와의 호환성을 입증하고 VQA-CP v2에서 개선을 보고합니다.
실험 결과
연구 질문
- RQ1질문-전용 편향을 학습 중 어느 정도까지 포착하고 완화하여 VQA의 강건성을 향상시킬 수 있는가?
- RQ2RUBi가 편향된 데이터셋과 표준 데이터셋에서 서로 다른 VQA 아키텍처의 성능을 향상시키는가?
- RQ3제안된 마스킹 전략이 학습 역학 및 편향 감소에 미치는 영향은 무엇인가?
- RQ4단일 모달 편향 감소가 표준 VQA-v2 성능에 어느 정도 영향을 미치는가?
주요 결과
- RUBi는 VQA-CP v2에서 평균 전체 정확도 47.11%를 달성하여 이전 최첨단 대비 +5.94 포인트 향상.
- RUBi는 아키텍처 전반에 걸쳐 이득을 제공: SAN(+11.73) 및 UpDn(+4.5)의 향상을 보이며 편향-감소 방법으로.
- VQA-CP v2에서 RUBi는 베이스라인보다 +8.65 포인트로 앞서며 GVQA와 같은 이전 편향 중심 방법을 크게 능가합니다.
- RUBi는 VQA-v2에서 경쟁력 있는 성능을 유지하면서 VQA-CP v2에서 큰 이익을 얻어 질문 편향에 대한 강건성을 시사합니다.
- Ablation은 L_QO와 마스킹 접근법이 편향 감소에 필요함을 확인합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.