Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Visually-Grounded Semantics from Contrastive Adversarial Samples

Haoyue Shi, Jiayuan Mao|arXiv (Cornell University)|2018. 06. 27.
Multimodal Machine Learning Applications참고 문헌 38인용 수 24
한 줄 요약

이 논문은 WordNet과 언어 규칙을 사용하여 의미적으로 반대되지만 구조적으로 유사한 문장(예: 'on'을 'under'로 변경하거나 명사를 동의어로 교체)을 합성한 대조적 악성 샘플을 사용해 대조적 악성 샘플을 학습하는 VSE-C라는 방법을 제안한다. 이는 내부 쌍의 어려운 음성 샘플링과 함께 적용되어 이미지-텍스트 검색 및 단어-개념 검색에서의 제로샷 전이 성능을 크게 향상시키며, 여러 벤치마크에서 VSE++와 GloVe를 능가한다.

ABSTRACT

We study the problem of grounding distributional representations of texts on the visual domain, namely visual-semantic embeddings (VSE for short). Begin with an insightful adversarial attack on VSE embeddings, we show the limitation of current frameworks and image-text datasets (e.g., MS-COCO) both quantitatively and qualitatively. The large gap between the number of possible constitutions of real-world semantics and the size of parallel data, to a large extent, restricts the model to establish the link between textual semantics and visual concepts. We alleviate this problem by augmenting the MS-COCO image captioning datasets with textual contrastive adversarial samples. These samples are synthesized using linguistic rules and the WordNet knowledge base. The construction procedure is both syntax- and semantics-aware. The samples enforce the model to ground learned embeddings to concrete concepts within the image. This simple but powerful technique brings a noticeable improvement over the baselines on a diverse set of downstream tasks, in addition to defending known-type adversarial attacks. We release the codes at https://github.com/ExplorerFreda/VSE-C.

연구 동기 및 목표

  • 현존하는 시각-언어 데이터셋(예: MS-COCO)이 실제 세계의 의미 조합을 충분히 다루지 못해 희소하고 편향되어 있는 점을 해결하기 위해.
  • 기존 VSE 모델이 의미적으로 모순되지만 문법적으로 유사한 문장에 대해 왜 실패하는지, 특히 유사한 문법을 가진 의미적으로 반대되는 캡션을 구분하지 못하는지 조사하기 위해.
  • 텍스트와 시각적 개념 간의 미세한 정렬을 강제하기 위해 의미적으로 대조적이지만 문맥적으로 유사한 샘플을 도입하여 단어 임베딩의 시각적 공간 내 기반 강화를 위해.
  • 이미지-텍스트 검색 및 빈칸 메꾸기 단어 예측과 같은 하류 작업에서 학습된 임베딩의 전이 가능성 평가를 위해.
  • 언어 규칙과 지식 기반 시스템(예: WordNet)을 통합하여 의미적으로 일관되지만 대조적인 훈련 샘플을 생성하는 일반화 가능한 데이터 증강 프레임워크 개발을 위해.

제안 방법

  • 언어 규칙과 WordNet을 사용해 의미적으로 반대되지만 문맥적으로 유사한 캡션(예: 'on'을 'under'로 변경하거나 명사를 동의어로 교체)을 합성하여 대조적 악성 샘플을 생성한다.
  • 세 가지 유형의 악성 샘플을 생성한다: 명사 수준(명사를 동의어로 교체), 수사 수준(객체의 수 변경), 관계 수준(공간 부사어 이동).
  • 훈련 중 가장 도전적인 악성 샘플을 선택하기 위해 내부 쌍의 어려운 음성 샘플링 전략을 도입하여 모델의 강인성을 향상시킨다.
  • 원본 MS-COCO 캡션과 생성된 악성 샘플의 조합을 사용해 VSE 스타일 모델을 훈련시키며, 코사인 유사도 손실을 사용해 통합 임베딩 최적화를 수행한다.
  • 양방향 GRU와 ResNet-152에서 추출한 이미지 특징을 사용해 빈칸 메꾸기 모델을 구축하고, 최종 예측은 두 층의 완전 연결 신경망(MLP)을 통해 수행한다.
  • 특정 시각적 개념(예: 객체, 관계) 수준에서 실제 캡션과 악성 캡션을 구분하도록 유도하는 공동 훈련 목표를 사용한다.

실험 결과

연구 질문

  • RQ1대조적 캡션 변형이 현재 VSE 모델의 약점을 드러내는 방식은 무엇이며, 특히 의미적으로 모순되지만 문법적으로 유사한 문장에서 시각적 개념에 대한 텍스트 의미 기반의 약점을 어떻게 폭 드러내는가?
  • RQ2대조적 악성 샘플의 추가가 시각-언어 임베딩의 강인성과 일반화 능력을 어느 정도 향상시키는가?
  • RQ3의미적으로 대조적이지만 문법적으로 유사한 캡션을 학습함으로써 모델이 특정 시각적 실체에 대한 단어 수준의 의미 기반 능력이 향상되는가?
  • RQ4VSE-C의 성능는 이미지-텍스트 검색 및 단어-개념 검색과 같은 다양한 하류 작업에서 어떻게 전이되는가?
  • RQ5언어 규칙과 WordNet 기반의 제안된 데이터 증강 전략이 이미지-텍스트 데이터셋의 희소성과 편향 문제를 효과적으로 완화할 수 있는가?

주요 결과

  • VSE-C는 이미지-객체 검색에서 최고 성능을 기록했으며, 명사 메꾸기에서 R@1이 27.3%이고 R@10이 62.9%를 기록했으며, VSE++(25.0% 및 61.7%)와 GloVe(23.2% 및 58.8%)를 모두 능가했다.
  • 관계 수준의 악성 샘플만으로도 VSE-C는 전치사 메꾸기에서 R@1이 35.2%이고 R@10이 85.2%를 기록했으며, 모든 유형의 악성 샘플을 사용해 훈련한 모델와 유사한 성능을 보였다.
  • 모델는 강력한 제로샷 전이 능력을 보였으며, 명사와 전치사 메꾸기의 병합에서 R@1이 30.0%이고 R@10이 70.98%를 기록했으며, VSE++(28.4% 및 68.1%)를 초월했다.
  • VSE-C는 알려진 악성 공격에 대해 강인성을 보였으며, 의미적으로 모순되는 캡션을 제시받더라도 검색 작업에서 높은 신뢰도를 유지했다.
  • 내부 쌍의 어려운 음성 샘플링 전략은 훈련 중 가장 도전적인 음성 예제에 집중함으로써 모델의 분류 능력을 효과적으로 향상시켰다.
  • 결과는 인간의 사전 지식과 지식 기반 시스템(WordNet)을 통한 도입이 시각-언어 학습에서 언어의 희소성과 비연속성을 크게 감소시킨다는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.