Skip to main content
QUICK REVIEW

[논문 리뷰] Modeling Relationships in Referential Expressions with Compositional Modular Networks

Ronghang Hu, Marcus Rohrbach|arXiv (Cornell University)|2016. 11. 30.
Multimodal Machine Learning Applications참고 문헌 1인용 수 21
한 줄 요약

이 논문은 소프트 어텐션을 사용하여 참조 표현을 주어, 관계, 목적어 구성 요소로 분해함으로써 참조 표현을 모델링하는 새로운 엔드 투 엔드 미분 가능한 아키텍처인 조합 모듈러 네트워크(Compositional Modular Networks, CMNs)를 제안한다. 두 종류의 신경 모듈—정위치 모듈과 관계 모듈—을 활용하여 언어 분석과 시각적 기반을 함께 학습하며, 다양한 참조 표현 및 시각적 기반 벤치마크에서 최신 기술을 능가한다.

ABSTRACT

People often refer to entities in an image in terms of their relationships with other entities. For example, "the black cat sitting under the table" refers to both a "black cat" entity and its relationship with another "table" entity. Understanding these relationships is essential for interpreting and grounding such natural language expressions. Most prior work focuses on either grounding entire referential expressions holistically to one region, or localizing relationships based on a fixed set of categories. In this paper we instead present a modular deep architecture capable of analyzing referential expressions into their component parts, identifying entities and relationships mentioned in the input expression and grounding them all in the scene. We call this approach Compositional Modular Networks (CMNs): a novel architecture that learns linguistic analysis and visual inference end-to-end. Our approach is built around two types of neural modules that inspect local regions and pairwise interactions between regions. We evaluate CMNs on multiple referential expression datasets, outperforming state-of-the-art approaches on all tasks.

연구 동기 및 목표

  • 이미지 내 개체 간 상호관계를 포함하는 복잡한 참조 표현의 기반 문제를 해결하기 위해.
  • 이전의 통합 기반 모델이 명시적인 언어 구성 요소와 시각적 대응을 모델링하지 못하는 한계를 극복하기 위해.
  • 사전에 정의된 관계 카테고리에 의존하지 않고도 조합적 언어적 구조와 시각적 기반을 엔드 투 엔드로 학습할 수 있도록 하기 위해.
  • 미분 가능한 분해를 수행하고 텍스트 구성 요소를 이미지 영역과 정렬하는 모듈러 신경 아키텍처를 개발하기 위해.
  • 약한 감독 하에서 다양한 참조 표현 및 시각적 기반 작업에서 뛰어난 성능을 달성하기 위해.

제안 방법

  • 입력 참조 표현을 주어, 관계, 목적어 구성 요소로 분해하기 위해 소프트 어텐션 맵을 사용한다.
  • 정위치 모듈(단일 영역 점수 계산용)과 관계 모듈(쌍별 영역 점수 계산용)이라는 두 가지 다른 신경 모듈을 구현한다.
  • 두 모듈의 출력을 통합하여 최종 영역 쌍 점수를 도출하고, 기반 예측을 생성한다.
  • 정확한 기반을 장려하는 미분 가능한 손실 함수(Eqn. 20)를 사용하여 약한 감독 하에 전체 모델을 엔드 투 엔드로 훈련한다.
  • 이미지 영역과 제안 영역에서 시각적 특징을 추출하기 위해 사전 훈련된 Faster R-CNN(VGG-16)을 활용한다.
  • 각 구성 요소에 대한 명시적 애너테이션 없이도 텍스트 구성 요소를 관련된 이미지 영역과 정렬하기 위해 미분 가능한 어텐션 기반 기법을 적용한다.

실험 결과

연구 질문

  • RQ1신경망 아키텍처가 참조 표현의 언어 분석과 시각적 기반을 엔드 투 엔드로 미분 가능한 방식으로 함께 학습할 수 있는가?
  • RQ2주어, 관계, 목적어로 분리하여 참조 표현을 조합적으로 모델링하는 것이 통합적 접근 방식보다 기반 정확도를 향상시키는가?
  • RQ3정위치와 쌍별 관계를 위한 별도의 모듈을 사용하는 모듈러 아키텍처가 고정된 카테고리 제약 없이 다양한 참조 표현에 일반화할 수 있는가?
  • RQ4표준 참조 표현 및 시각적 기반 벤치마크에서 제안된 CMN 모델이 강력한 베이스라인 및 이전 최고 성능 모델보다 어떻게 성능을 내는가?
  • RQ5약한 감독만으로도 모델이 조합적 구조와 시각적 대응을 얼마나 잘 복원할 수 있는가?

주요 결과

  • Google-Ref 데이터셋에서 CMNs는 자연스러운 베이스라인과 최신 기술을 모두 능가하며, 참조 표현 기반 정확도가 높아 보였다.
  • Visual-7W 데이터셋에서 전체 CMN 모델은 이전 작업보다 더 높은 다중 선택 지목 질문 정확도를 달성했으며, 외부 파서나 오직 국소적 외관 특징만 사용하는 모델들을 뛰어넘었다.
  • 정위치 모듈과 관계 모듈의 통합으로 모델 성능이 크게 향상되어, 모듈러이고 조합적인 추론의 이점이 입증되었다.
  • 제거 실험을 통해 엔드 투 엔드 훈련을 사용한 전체 CMN 모델이 외부 파서(Stanford parser)를 사용한 단순화된 버전보다 성능이 뛰어나, 공동 학습의 이점이 확인되었다.
  • 그림 5와 6의 정성적 결과는 CMNs가 공간적, 관계적, 묘사적 특성을 포함한 복잡한 표현, 다중 개체 관계까지도 정확히 기반함을 보여주었다.
  • 모델는 새로운 표현에 잘 일반화되며, 복잡한 공간적 및 관계적 묘사가 포함된 다양한 데이터셋에서도 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.