QUICK REVIEW

[논문 리뷰] A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

Linjie Li, Zhe Gan|arXiv (Cornell University)|2020. 12. 15.

Multimodal Machine Learning Applications참고 문헌 84인용 수 27

한 줄 요약

이 논문은 시각-언어 미리 훈련된 모델의 정 robustness 를 향상시키기 위해 임bedding 공간에서 다중모달 적대적 노이즈를 생성하는 방법을 학습하는, 작업에 종속되지 않고 효율적인 적대적 훈련 방법인 Mango를 제안한다. 이는 9개의 정 robustness 벤치마크 중 7개에서 최신 기술 성능을 달성하며, 언어적 다양성, 논리적 추론, 시각적 조작, 분포 이탈에 대한 일반화 능력을 크게 향상시킨다.

ABSTRACT

Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.

연구 동기 및 목표

표준 벤치마크에서 포괄하지 않는 다양한 실패 유형에 대해 시각-언어 미리 훈련된 모델의 정 robustness 를 체계적으로 평가하는 것.
표준 미세조정 또는 적대적 훈련이 도전적인 분포 이탈 또는 변형된 입력에서 모델의 정 robustness 를 향상시킬 수 있는지 조사하는 것.
작업에 종속되지 않고 작업 전용 데이터나 아키텍처에 의존하지 않는 일반적이고 효율적인 방법을 개발하여 보편적으로 정 robustness 를 향상시키는 것.
언어적 다양성, 논리적 추론, 시각 콘텐츠 조작, 답변 분포 이탈을 포함한 시각-언어 분야에서 모델 정 robustness 평가를 위한 종합적인 벤치마크 세트를 구축하는 것.

제안 방법

미리 훈련된 모델을 속이기 위해 다중모달 임베딩(이미지 및 텍스트)을 교란하는 것을 학습하는 신경망 기반의 적대적 노이즈 생성기를 제안한다.
적대적 예제를 임bedding 공간에서 생성하기 위해 프로젝션 기반 경사 하강법(PGD)을 사용하여 백본 모델과 함께 노이즈 생성기를 종합적으로 훈련한다.
적대적 예제의 다양성을 증진하기 위해 노이즈 주입 중 이미지 영역과 텍스트 입력의 [MASK] 토큰을 무작위로 마스킹한다.
두 스트림(LXMERT) 및 크로스 어텐션(UNITER) 아키텍처 모두에 적대적 훈련 프레임워크를 적용하여 다양한 모델 유형 간의 일반화 능력을 입증한다.
반복적인 PGD 대신 경량이며 반복이 없는 노이즈 생성기를 사용하여 훈련 비용을 줄이면서도 정 robustness 향상 효과를 유지한다.
표준 V+L 작업(예: NLVR2, RefCOCO)에 이 방법을 적용하여, 작업에 종속되지 않은 적용 가능성과 일반화 능력을 검증한다.

실험 결과

연구 질문

RQ1언어적 다양성, 시각적 조작, 또는 분포 이탈을 포함한 벤치마크에서 평가할 때 현재의 시각-언어 미리 훈련된 모델(예: UNITER, LXMERT)은 얼마나 정 robust한가?
RQ2표준 미세조정 또는 PGD 기반의 적대적 훈련이 다양한 정 robustness 유형에 걸쳐 정 robustness 를 향상시킬 수 있는가, 아니면 특정 실패 유형에 국한되는가?
RQ3Mango와 같은 일반적이고 작업에 종속되지 않은 적대적 훈련 방법이 작업 전용 적응 없이 여러 정 robustness 벤치마크에서 보편적으로 정 robustness 를 향상시킬 수 있는가?
RQ4랜덤 마스킹, 모odal별 노이즈 등 구성 요소 중에서 적대적 예제의 다양성과 일반화 능력을 향상시키는 데 가장 효과적인 것은 무엇인가?
RQ5학습된 노이즈 생성기를 사용한 적대적 훈련이 표준 PGD 기반 방법에 비해 정 robustness 와 효율성 측면에서 얼마나 뛰어나게 성능을 발휘하는가?

주요 결과

평가된 벤치마크에서 표준 미세조정은 많은 작업 전용 최신 기술 방법보다도 더 뛰어난 정 robustness 를 보인다.
Mango는 9개의 정 robustness 벤치마크 중 7개에서 최신 기술 성능을 달성하며, 기존 방법들, 특히 PGD 기반 적대적 훈련보다도 뚜렷이 뛰어난 성능을 보인다.
VQA-LOL Compose 및 Supplement에서 Mango는 기준 UNITER 모델 대비 정확도를 10퍼센트 포인트 이상 향상시켜 논리적 추론 작업에서 강력한 성능 향상을 보였다.
노이즈 주입 중 이미지 영역과 [MASK] 토큰의 랜덤 마스킹은 더 다양한 적대적 임베딩을 생성하고, 특히 분포 이탈된 질문 길이 분포를 가진 벤치마크에서 성능 향상에 기여한다.
단일 모odal(텍스트 또는 이미지)에 대한 적대적 노이즈 주입만으로도 상당한 성능 향상이 이루어지며, 양방향 노이즈 주입은 추가적인 이점을 거의 제공하지 않아, 모달별 정 robustness 가 충분함을 시사한다.
이 방법은 LXMERT와 같은 다른 아키텍처로도 효과적으로 일반화되며, 아키텍처 변경 없이도 모든 평가된 벤치마크에서 정 robustness 가 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.