QUICK REVIEW

[논문 리뷰] VD-BERT: A Unified Vision and Dialog Transformer with BERT

Yue Wang, Shafiq Joty|arXiv (Cornell University)|2020. 04. 28.

Multimodal Machine Learning Applications참고 문헌 60인용 수 30

한 줄 요약

VD-BERT는 BERT를 기반으로 한 단일 스트림 Vision-Dialog Transformer를 도입하여 이미지 내용과 다-turn 대화를 함께 모델링하고, 외부 시각-언어 사전학습 없이 VisDial에서 최첨단 NDCG를 달성합니다.

ABSTRACT

Visual dialog is a challenging vision-language task, where a dialog agent needs to answer a series of questions through reasoning on the image content and dialog history. Prior work has mostly focused on various attention mechanisms to model such intricate interactions. By contrast, in this work, we propose VD-BERT, a simple yet effective framework of unified vision-dialog Transformer that leverages the pretrained BERT language models for Visual Dialog tasks. The model is unified in that (1) it captures all the interactions between the image and the multi-turn dialog using a single-stream Transformer encoder, and (2) it supports both answer ranking and answer generation seamlessly through the same architecture. More crucially, we adapt BERT for the effective fusion of vision and dialog contents via visually grounded training. Without the need of pretraining on external vision-language data, our model yields new state of the art, achieving the top position in both single-model and ensemble settings (74.54 and 75.35 NDCG scores) on the visual dialog leaderboard. Our code and pretrained models are released at https://github.com/salesforce/VD-BERT.

연구 동기 및 목표

이미지 내용과 대화 이력을 통합해야 하는 다-turn 추론 과제로 시각적 대화를 동기화한다.
하나의 unified Transformer 모델을 제안하여 Visual Dialog에서 구분적(랭킹) 및 생성적(생성) 작업을 모두 처리한다.
BERT를 통한 시각적으로 연결된 학습이 큰 외부 시각-언어 사전학습 없이도 최첨단 결과를 낼 수 있음을 시연한다.

제안 방법

초 object 수준 특징으로 이미지를 인코딩하고 캡션 및 다중 턴 대화와 결합한 단일 Transformer 인코더를 BERT로 초기화한다.
두 가지 자기-주의 마스크(양방향 및 seq2seq)를 사용하여 구분적 및 생성적 설정을 가능하게 하는 시각적으로 연결된 학습 목표(Masked Language Modeling 및 Next Sentence Prediction)를 활용한다.
입력에 각 응답 후보를 덧붙여 시퀀스의 다른 엔티티와의 조기 융합을 가능하게 한다.
구분적 학습의 경우 NSP 점수를 통해 후보를 랭크하고, 생성적 학습의 경우 동일한 인코더와 적절한 마스킹으로 자동회귀적으로 답을 생성한다.
랭킹 손실(ListNet)을 사용한 밀도 주석으로 미세조정하여 랭킹 품질을 향상시킨다.

실험 결과

연구 질문

RQ1하나의 통합된 Transformer 인코더가 시각적 대화에서 이미지 객체, 대화 이력, 그리고 후보 답변 간의 상호작용을 양방향으로 효과적으로 모델링할 수 있는가?
RQ2별도의 디코더나 외부 시각-언어 사전학습 없이도 BERT 기반 모델을 VisDial의 구분적(랭킹) 및 생성적(생성) 작업에 대해 학습시킬 수 있는가?
RQ3시각적으로 연결된 MLM 및 NSP 목표가 시각-대화 모달리티의 융합에 어떤 영향을 미치는가?

주요 결과

VD-BERT는 단일 모델 설정에서 VisDial v1.0 test-std에서 새로운 최첨단 결과를 달성( NDCG 74.54 ) 및 앙상블에서(NDCG 75.35).
VD-BERT는 구분적(task)에서 이전의 단일 모델 베이스라인을 능가하고 외부 시각-언어 사전학습 없이도 경쟁력 있는 생성 결과를 제공한다.
Dense annotation fine-tuning은 NDCG를 크게 향상시키지만(MRR, R@k와 같은 다른 지표가 감소할 수 있어) 지표 간 불일치를 시사한다.
BERT에서 초기화하는 것이 무작정 학습하는 것보다 큰 이점을 주며, 시각적 연결은 MLM을 통한 다중모드 전달에 필수적이다.
두 자기주 의 마스크를 가진 통합된 Transformer가 명시적 디코더 없이 구분적 및 생성적 VisDial 설정을 모두 지원할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.