QUICK REVIEW

[논문 리뷰] Normalized and Geometry-Aware Self-Attention Network for Image Captioning

Longteng Guo, Jing Liu|arXiv (Cornell University)|2020. 03. 19.

Multimodal Machine Learning Applications참고 문헌 44인용 수 26

한 줄 요약

이 논문은 이미지 캡셔닝에서 자기주의 성능을 향상시키기 위해 정규화된 자기주의(Normalized Self-Attention, NSA)와 기하학적 인식 자기주의(Geometry-aware Self-Attention, GSA)를 제안한다. NSA는 자기주의 내부의 은닉 활성화를 정규화하여 내부 공변위 이동을 감소시키며, GSA는 이미지 객체 간의 상대적인 기하학적 관계를 명시적으로 모델링한다. NG-SAN 모델은 MS-COCO에서 CIDEr 점수 128.6을 기록하여 새로운 SOTA 성능을 달성하였으며, 영상 캡처닝, 기계 번역, 시각질문응답 등 다양한 작업에서 일관된 성능 향상을 보였다.

ABSTRACT

Self-attention (SA) network has shown profound value in image captioning. In this paper, we improve SA from two aspects to promote the performance of image captioning. First, we propose Normalized Self-Attention (NSA), a reparameterization of SA that brings the benefits of normalization inside SA. While normalization is previously only applied outside SA, we introduce a novel normalization method and demonstrate that it is both possible and beneficial to perform it on the hidden activations inside SA. Second, to compensate for the major limit of Transformer that it fails to model the geometry structure of the input objects, we propose a class of Geometry-aware Self-Attention (GSA) that extends SA to explicitly and efficiently consider the relative geometry relations between the objects in the image. To construct our image captioning model, we combine the two modules and apply it to the vanilla self-attention network. We extensively evaluate our proposals on MS-COCO image captioning dataset and superior results are achieved when comparing to state-of-the-art approaches. Further experiments on three challenging tasks, i.e. video captioning, machine translation, and visual question answering, show the generality of our methods.

연구 동기 및 목표

자기주의 네트워크에서 내부 공변위 이동 문제를 해결함으로써 효과적인 훈련과 최적화를 가능하게 한다.
표준 자기주의가 忽시하는 객체 간의 기하학적 관계를 명시적으로 모델링하여 이미지 캡처닝 성능을 향상시킨다.
이미지 캡처닝을 넘어서 다양한 시각-언어 작업에서 성능을 향상시키는 일반적인 목적의 자기주의 기반 메커니즘을 개발한다.
이전에는 외부에만 적용되었던 자기주의 레이어 내부의 정규화가 모델 안정성과 성능 향상에 상당한 기여를 할 수 있음을 입증한다.
정규화와 기하학적 인도티브 바이어스를 통합하여 주의 기반 모델에서 시각적 표현 학습을 향상시키는 통합 프레임워크를 구축한다.

제안 방법

자기주의 내부의 은닉 활성화에 직접적으로 새로운 정규화 기법을 적용하여 훈련 안정성 향상과 내부 공변위 이동 감소를 달성하는 새로운 자기주의 재구성인 정규화된 자기주의(Normalized Self-Attention, NSA)를 제안한다.
표준 자기주의에 상대적인 공간적 위치와 척도에 따라 변화하는 학습 가능한 기하학적 편향을 추가하여, 객체 간의 공간적으로 일관된 그룹에 주의를 기울일 수 있도록 하는 기하학적 인식 자기주의(Geometry-aware Self-Attention, GSA)를 도입한다.
NSA와 GSA를 통합하여 새로운 모듈인 NG-SAN을 개발하고, 트랜스포머 기반 이미지 캡처닝 모델의 인코더 내부에서 기존의 일반 자기주의 블록을 대체한다.
영상 캡처닝 및 기계 번역 작업의 트랜스포머 모델 인코더에 NSA를 적용하여 표준 자기주의를 대체함으로써, 최소한의 계산 비용으로 일반화 성능 향상을 달성한다.
시각질문응답을 위한 MCAN 모델의 모든 자기주의 모듈을 GSA로 교체하여 시각-언어 추론에 기하학적 인도티브 바이어스를 통합한다.
표준 벤치마크를 사용하여 제안된 모델을 훈련 및 평가한다: 이미지 캡처닝은 MS-COCO, 영상 캡처닝은 VATEX, 기계 번역은 WMT 2014 En-De, 시각질문응답은 VQA-v2를 사용한다.

실험 결과

연구 질문

RQ1자기주의 레이어 내부에서의 정규화가 내부 공변위 이동을 줄이고, 시각-언어 모델의 훈련 안정성과 성능 향상에 기여할 수 있는가?
RQ2이미지 객체 간의 상대적 기하학적 관계를 명시적으로 모델링하면 시각적 표현 학습이 향상되고 이미지 캡처닝 성능이 향상될 수 있는가?
RQ3정규화된 자기주의와 기하학적 인식 자기주의의 조합이 이미지 캡처닝을 넘어서 다른 시각-언어 작업으로 일반화될 수 있는가?
RQ4NSA와 GSA는 기존의 트랜스포머 기반 모델에 최소한의 아키텍처 수정과 계산 비용으로 적용 가능하며 일관된 성능 향상을 이끌 수 있는가?
RQ5NSA와 GSA는 영상 캡처닝, 기계 번역, 시각질문응답과 같은 후행 작업에서 얼마나 높은 성능 향상을 이룰 수 있는가?

주요 결과

NG-SAN 모델은 MS-COCO 이미지 캡처닝 벤치마크에서 기존 단일 모델 기준 최고 성능인 125.5를 초월한 새로운 SOTA CIDEr 점수 128.6을 기록하였다.
NSA는 VATEX 영상 캡처닝 데이터셋에서 트랜스포머 베이스라인보다 CIDEr 점수 3.7점 향상되었고, VATEX LSTM 기반 모델보다 11.4점 향상되었다.
NSA는 파rameter를 추가하지 않고도 WMT 2014 영어-독어 번역 작업에서 트랜스포머-베이스라인 대비 BLEU 점수 0.36점 향상되었다.
GSA는 MCAN의 VQA-v2 테스트-std 정확도를 70.83%에서 71.28%로 향상시켜 시각적 추론 작업에서의 효과성을 입증하였다.
NSA와 GSA의 조합은 다양한 시각-언어 작업에서 일관된 성능 향상을 이끌어내어 제안된 모듈의 일반성과 강건성을 확인하였다.
절단 실험 결과, NSA와 GSA는 각각 독립적으로나 상호보완적으로 성능 향상에 기여하며, NSA는 최적화를 향상시키고 GSA는 구조적 인도티브 바이어스를 강화함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.