Skip to main content
QUICK REVIEW

[논문 리뷰] Bilinear Attention Networks

Jin-Hwa Kim, Jae-Hyun Jun|arXiv (Cornell University)|2018. 05. 21.
Multimodal Machine Learning Applications참고 문헌 28인용 수 78
한 줄 요약

BAN은 다채널 비전-언어 입력에 대해 저랭크 풀링 및 잔여 주의를 활용한 이차 주의 맵을 학습하여 VQA 2.0 및 Flickr30k Entities에서 최첨단 성능을 달성합니다.

ABSTRACT

Attention networks in multimodal learning provide an efficient way to utilize given visual information selectively. However, the computational cost to learn attention distributions for every pair of multimodal input channels is prohibitively expensive. To solve this problem, co-attention builds two separate attention distributions for each modality neglecting the interaction between multimodal inputs. In this paper, we propose bilinear attention networks (BAN) that find bilinear attention distributions to utilize given vision-language information seamlessly. BAN considers bilinear interactions among two groups of input channels, while low-rank bilinear pooling extracts the joint representations for each pair of channels. Furthermore, we propose a variant of multimodal residual networks to exploit eight-attention maps of the BAN efficiently. We quantitatively and qualitatively evaluate our model on visual question answering (VQA 2.0) and Flickr30k Entities datasets, showing that BAN significantly outperforms previous methods and achieves new state-of-the-arts on both datasets.

연구 동기 및 목표

  • 모달리티 간의 상호작용을 모델링하여 공동 주의(co-attention)를 넘어 비전과 언어의 향상된 융합을 동기화한다.
  • 두 그룹의 입력 채널을 함께 주의하는 이차 주의 메커니즘을 제안한다.
  • 여러 이차 주의 맵을 효율적으로 활용하기 위한 잔여 학습 스킴을 도입한다.
  • BAN을 VQA 2.0 및 Flickr30k Entities에서 평가하여 최첨단 성능 및 바인딩 능력을 확립한다.

제안 방법

  • 두 다중 채널 입력 X, Y 사이의 이차 주의 맵 A를 정의하고 저랭크 이차 풀링을 통해 합동 표현을 계산한다.
  • A를 Hadamard 곱과 저랭크 投投(projections) (U, V, p)을 사용하는 이차 점수의 softmax로 매개화한다.
  • 공유된 U, V와 서로 다른 p_g를 사용하여 다중 시야를 확장한다.
  • 연결(concatenation) 없이 여러 BAN 맵을 통합하는 멀티모달 잔여 네트워크 변형을 적용하여 8-시야 학습을 가능하게 한다.
  • 특징 상호작용 및 주의 모두에서 ReLU 비선형성을 사용하고 VQA를 위한 2계층 MLP 분류기와 정답-교차 엔트로피 손실(BCE 손실)을 바인딩 태스크에 적용한다.

실험 결과

연구 질문

  • RQ1이차 주의가 비전 채널과 언어 채널 간의 상호작용을 공동 주의나 단일 주의보다 더 효과적으로 포착할 수 있는가?
  • RQ2여러 이차 주의 맵의 잔여 통합이 정확도와 효율성을 개선하는가?
  • RQ3BAN은 VQA 2.0 및 Flickr30k Entities에서 정확도와 바인딩 속도 측면에서 어떤 성능을 보이는가?
  • RQ4시야의 수가 성능 및 강건성에 미치는 영향은 무엇인가?

주요 결과

  • 이차 주의 맵을 갖춘 BAN은 VQA 2.0 검증에서 단일 주의 및 협-주의(co-attention)보다 우수한 성능을 보인다.
  • 시야 수를 늘리면 VQA 검증 점수가 향상된다(BAN-1: 65.36, BAN-2: 65.61, BAN-4: 65.81, BAN-8: 66.00, BAN-12: 66.04).
  • 여러 BAN 맵의 합, 연결(concat) 융합보다 잔여 학습이 더 나은 결과를 낸다.
  • Flickr30k Entities에서 BAN은 추가 기능 없이도 69.69% Recall@1를 달성하고, 추론 속도는 25.37% 개선되어 엔티티당 0.67 ms로 느려지지 않는다.
  • BAN은 여덟 시야에서도 경쟁력 있는 시각 바인딩을 보여주고 파라미터 효율성을 유지한다.
  • 모델은 VQA 2.0과 Flickr30k Entities 벤치마크에서 최첨단 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.