QUICK REVIEW

[논문 리뷰] Learning Visually-Grounded Semantics from Contrastive Adversarial Samples

Haoyue Shi, Jiayuan Mao|arXiv (Cornell University)|2018. 06. 27.

Multimodal Machine Learning Applications참고 문헌 38인용 수 24

한 줄 요약

이 논문은 WordNet과 언어 규칙을 사용하여 의미적으로 반대되지만 구조적으로 유사한 문장(예: 'on'을 'under'로 변경하거나 명사를 동의어로 교체)을 합성한 대조적 악성 샘플을 사용해 대조적 악성 샘플을 학습하는 VSE-C라는 방법을 제안한다. 이는 내부 쌍의 어려운 음성 샘플링과 함께 적용되어 이미지-텍스트 검색 및 단어-개념 검색에서의 제로샷 전이 성능을 크게 향상시키며, 여러 벤치마크에서 VSE++와 GloVe를 능가한다.

ABSTRACT

We study the problem of grounding distributional representations of texts on the visual domain, namely visual-semantic embeddings (VSE for short). Begin with an insightful adversarial attack on VSE embeddings, we show the limitation of current frameworks and image-text datasets (e.g., MS-COCO) both quantitatively and qualitatively. The large gap between the number of possible constitutions of real-world semantics and the size of parallel data, to a large extent, restricts the model to establish the link between textual semantics and visual concepts. We alleviate this problem by augmenting the MS-COCO image captioning datasets with textual contrastive adversarial samples. These samples are synthesized using linguistic rules and the WordNet knowledge base. The construction procedure is both syntax- and semantics-aware. The samples enforce the model to ground learned embeddings to concrete concepts within the image. This simple but powerful technique brings a noticeable improvement over the baselines on a diverse set of downstream tasks, in addition to defending known-type adversarial attacks. We release the codes at https://github.com/ExplorerFreda/VSE-C.

연구 동기 및 목표

현존하는 시각-언어 데이터셋(예: MS-COCO)이 실제 세계의 의미 조합을 충분히 다루지 못해 희소하고 편향되어 있는 점을 해결하기 위해.
기존 VSE 모델이 의미적으로 모순되지만 문법적으로 유사한 문장에 대해 왜 실패하는지, 특히 유사한 문법을 가진 의미적으로 반대되는 캡션을 구분하지 못하는지 조사하기 위해.
텍스트와 시각적 개념 간의 미세한 정렬을 강제하기 위해 의미적으로 대조적이지만 문맥적으로 유사한 샘플을 도입하여 단어 임베딩의 시각적 공간 내 기반 강화를 위해.
이미지-텍스트 검색 및 빈칸 메꾸기 단어 예측과 같은 하류 작업에서 학습된 임베딩의 전이 가능성 평가를 위해.
언어 규칙과 지식 기반 시스템(예: WordNet)을 통합하여 의미적으로 일관되지만 대조적인 훈련 샘플을 생성하는 일반화 가능한 데이터 증강 프레임워크 개발을 위해.

제안 방법

언어 규칙과 WordNet을 사용해 의미적으로 반대되지만 문맥적으로 유사한 캡션(예: 'on'을 'under'로 변경하거나 명사를 동의어로 교체)을 합성하여 대조적 악성 샘플을 생성한다.
세 가지 유형의 악성 샘플을 생성한다: 명사 수준(명사를 동의어로 교체), 수사 수준(객체의 수 변경), 관계 수준(공간 부사어 이동).
훈련 중 가장 도전적인 악성 샘플을 선택하기 위해 내부 쌍의 어려운 음성 샘플링 전략을 도입하여 모델의 강인성을 향상시킨다.
원본 MS-COCO 캡션과 생성된 악성 샘플의 조합을 사용해 VSE 스타일 모델을 훈련시키며, 코사인 유사도 손실을 사용해 통합 임베딩 최적화를 수행한다.
양방향 GRU와 ResNet-152에서 추출한 이미지 특징을 사용해 빈칸 메꾸기 모델을 구축하고, 최종 예측은 두 층의 완전 연결 신경망(MLP)을 통해 수행한다.
특정 시각적 개념(예: 객체, 관계) 수준에서 실제 캡션과 악성 캡션을 구분하도록 유도하는 공동 훈련 목표를 사용한다.

실험 결과

연구 질문

RQ1대조적 캡션 변형이 현재 VSE 모델의 약점을 드러내는 방식은 무엇이며, 특히 의미적으로 모순되지만 문법적으로 유사한 문장에서 시각적 개념에 대한 텍스트 의미 기반의 약점을 어떻게 폭 드러내는가?
RQ2대조적 악성 샘플의 추가가 시각-언어 임베딩의 강인성과 일반화 능력을 어느 정도 향상시키는가?
RQ3의미적으로 대조적이지만 문법적으로 유사한 캡션을 학습함으로써 모델이 특정 시각적 실체에 대한 단어 수준의 의미 기반 능력이 향상되는가?
RQ4VSE-C의 성능는 이미지-텍스트 검색 및 단어-개념 검색과 같은 다양한 하류 작업에서 어떻게 전이되는가?
RQ5언어 규칙과 WordNet 기반의 제안된 데이터 증강 전략이 이미지-텍스트 데이터셋의 희소성과 편향 문제를 효과적으로 완화할 수 있는가?

주요 결과

VSE-C는 이미지-객체 검색에서 최고 성능을 기록했으며, 명사 메꾸기에서 R@1이 27.3%이고 R@10이 62.9%를 기록했으며, VSE++(25.0% 및 61.7%)와 GloVe(23.2% 및 58.8%)를 모두 능가했다.
관계 수준의 악성 샘플만으로도 VSE-C는 전치사 메꾸기에서 R@1이 35.2%이고 R@10이 85.2%를 기록했으며, 모든 유형의 악성 샘플을 사용해 훈련한 모델와 유사한 성능을 보였다.
모델는 강력한 제로샷 전이 능력을 보였으며, 명사와 전치사 메꾸기의 병합에서 R@1이 30.0%이고 R@10이 70.98%를 기록했으며, VSE++(28.4% 및 68.1%)를 초월했다.
VSE-C는 알려진 악성 공격에 대해 강인성을 보였으며, 의미적으로 모순되는 캡션을 제시받더라도 검색 작업에서 높은 신뢰도를 유지했다.
내부 쌍의 어려운 음성 샘플링 전략은 훈련 중 가장 도전적인 음성 예제에 집중함으로써 모델의 분류 능력을 효과적으로 향상시켰다.
결과는 인간의 사전 지식과 지식 기반 시스템(WordNet)을 통한 도입이 시각-언어 학습에서 언어의 희소성과 비연속성을 크게 감소시킨다는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.