Skip to main content
QUICK REVIEW

[논문 리뷰] A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

Linjie Li, Zhe Gan|arXiv (Cornell University)|2020. 12. 15.
Multimodal Machine Learning Applications참고 문헌 84인용 수 27
한 줄 요약

이 논문은 시각-언어 미리 훈련된 모델의 정 robustness 를 향상시키기 위해 임bedding 공간에서 다중모달 적대적 노이즈를 생성하는 방법을 학습하는, 작업에 종속되지 않고 효율적인 적대적 훈련 방법인 Mango를 제안한다. 이는 9개의 정 robustness 벤치마크 중 7개에서 최신 기술 성능을 달성하며, 언어적 다양성, 논리적 추론, 시각적 조작, 분포 이탈에 대한 일반화 능력을 크게 향상시킨다.

ABSTRACT

Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.

연구 동기 및 목표

  • 표준 벤치마크에서 포괄하지 않는 다양한 실패 유형에 대해 시각-언어 미리 훈련된 모델의 정 robustness 를 체계적으로 평가하는 것.
  • 표준 미세조정 또는 적대적 훈련이 도전적인 분포 이탈 또는 변형된 입력에서 모델의 정 robustness 를 향상시킬 수 있는지 조사하는 것.
  • 작업에 종속되지 않고 작업 전용 데이터나 아키텍처에 의존하지 않는 일반적이고 효율적인 방법을 개발하여 보편적으로 정 robustness 를 향상시키는 것.
  • 언어적 다양성, 논리적 추론, 시각 콘텐츠 조작, 답변 분포 이탈을 포함한 시각-언어 분야에서 모델 정 robustness 평가를 위한 종합적인 벤치마크 세트를 구축하는 것.

제안 방법

  • 미리 훈련된 모델을 속이기 위해 다중모달 임베딩(이미지 및 텍스트)을 교란하는 것을 학습하는 신경망 기반의 적대적 노이즈 생성기를 제안한다.
  • 적대적 예제를 임bedding 공간에서 생성하기 위해 프로젝션 기반 경사 하강법(PGD)을 사용하여 백본 모델과 함께 노이즈 생성기를 종합적으로 훈련한다.
  • 적대적 예제의 다양성을 증진하기 위해 노이즈 주입 중 이미지 영역과 텍스트 입력의 [MASK] 토큰을 무작위로 마스킹한다.
  • 두 스트림(LXMERT) 및 크로스 어텐션(UNITER) 아키텍처 모두에 적대적 훈련 프레임워크를 적용하여 다양한 모델 유형 간의 일반화 능력을 입증한다.
  • 반복적인 PGD 대신 경량이며 반복이 없는 노이즈 생성기를 사용하여 훈련 비용을 줄이면서도 정 robustness 향상 효과를 유지한다.
  • 표준 V+L 작업(예: NLVR2, RefCOCO)에 이 방법을 적용하여, 작업에 종속되지 않은 적용 가능성과 일반화 능력을 검증한다.

실험 결과

연구 질문

  • RQ1언어적 다양성, 시각적 조작, 또는 분포 이탈을 포함한 벤치마크에서 평가할 때 현재의 시각-언어 미리 훈련된 모델(예: UNITER, LXMERT)은 얼마나 정 robust한가?
  • RQ2표준 미세조정 또는 PGD 기반의 적대적 훈련이 다양한 정 robustness 유형에 걸쳐 정 robustness 를 향상시킬 수 있는가, 아니면 특정 실패 유형에 국한되는가?
  • RQ3Mango와 같은 일반적이고 작업에 종속되지 않은 적대적 훈련 방법이 작업 전용 적응 없이 여러 정 robustness 벤치마크에서 보편적으로 정 robustness 를 향상시킬 수 있는가?
  • RQ4랜덤 마스킹, 모odal별 노이즈 등 구성 요소 중에서 적대적 예제의 다양성과 일반화 능력을 향상시키는 데 가장 효과적인 것은 무엇인가?
  • RQ5학습된 노이즈 생성기를 사용한 적대적 훈련이 표준 PGD 기반 방법에 비해 정 robustness 와 효율성 측면에서 얼마나 뛰어나게 성능을 발휘하는가?

주요 결과

  • 평가된 벤치마크에서 표준 미세조정은 많은 작업 전용 최신 기술 방법보다도 더 뛰어난 정 robustness 를 보인다.
  • Mango는 9개의 정 robustness 벤치마크 중 7개에서 최신 기술 성능을 달성하며, 기존 방법들, 특히 PGD 기반 적대적 훈련보다도 뚜렷이 뛰어난 성능을 보인다.
  • VQA-LOL Compose 및 Supplement에서 Mango는 기준 UNITER 모델 대비 정확도를 10퍼센트 포인트 이상 향상시켜 논리적 추론 작업에서 강력한 성능 향상을 보였다.
  • 노이즈 주입 중 이미지 영역과 [MASK] 토큰의 랜덤 마스킹은 더 다양한 적대적 임베딩을 생성하고, 특히 분포 이탈된 질문 길이 분포를 가진 벤치마크에서 성능 향상에 기여한다.
  • 단일 모odal(텍스트 또는 이미지)에 대한 적대적 노이즈 주입만으로도 상당한 성능 향상이 이루어지며, 양방향 노이즈 주입은 추가적인 이점을 거의 제공하지 않아, 모달별 정 robustness 가 충분함을 시사한다.
  • 이 방법은 LXMERT와 같은 다른 아키텍처로도 효과적으로 일반화되며, 아키텍처 변경 없이도 모든 평가된 벤치마크에서 정 robustness 가 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.