Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Assemble Neural Module Tree Networks for Visual Grounding

Daqing Liu, Hanwang Zhang|arXiv (Cornell University)|2018. 12. 08.
Multimodal Machine Learning Applications참고 문헌 44인용 수 30
한 줄 요약

이 논문은 자연어 문장의 의존 구문 분석 트리에 따라 신경 모듈을 조립함으로써 시각적 기반을 수행하는 새로운 엔드 투 엔드 프레임워크인 신경 모듈 트리 네트워크(NMTree)를 제안한다. 언어를 미세한 언어적 구성 요소로 분해하고, Gumbel-Softmax를 사용하여 모듈 조립을 미분 가능하게 하여 설명 가능하고 하향식 추론을 가능하게 하며, RefCOCO, RefCOCO+, RefCOCOg 벤치마크에서 최신 기술을 초월하는 성능을 달성한다.

ABSTRACT

Visual grounding, a task to ground (i.e., localize) natural language in images, essentially requires composite visual reasoning. However, existing methods over-simplify the composite nature of language into a monolithic sentence embedding or a coarse composition of subject-predicate-object triplet. In this paper, we propose to ground natural language in an intuitive, explainable, and composite fashion as it should be. In particular, we develop a novel modular network called Neural Module Tree network (NMTree) that regularizes the visual grounding along the dependency parsing tree of the sentence, where each node is a neural module that calculates visual attention according to its linguistic feature, and the grounding score is accumulated in a bottom-up direction where as needed. NMTree disentangles the visual grounding from the composite reasoning, allowing the former to only focus on primitive and easy-to-generalize patterns. To reduce the impact of parsing errors, we train the modules and their assembly end-to-end by using the Gumbel-Softmax approximation and its straight-through gradient estimator, accounting for the discrete nature of module assembly. Overall, the proposed NMTree consistently outperforms the state-of-the-arts on several benchmarks. Qualitative results show explainable grounding score calculation in great detail.

연구 동기 및 목표

  • 기존의 통합 문장 임베딩 또는 거시적 주어-서술어-목적어 삼항 조합에 의존하는 시각적 기반 방법의 한계를 해결하기 위해.
  • 의존 구문 분석 트리를 구조적 체계로 활용하여 미세한, 인간과 유사한 복합 추론을 가능하게 하기 위해.
  • 모듈화 설계를 통해 시각적 인식과 복합 추론을 분리하여 시각-언어적 편향을 줄이기 위해.
  • Gumbel-Softmax 근사와 직선 경로 기울기 추정을 통한 엔드 투 엔드 훈련을 통해 구문 분석 오류의 영향을 최소화하기 위해.
  • 정확성과 해석 가능성의 균형을 이루며 높은 성능과 해석 가능성을 동시에 달성하기 위해.

제안 방법

  • 의존 구문 분석 트리(DPTs)를 각 노드가 시각적 기반 점수 계산을 위한 신경 모듈에 대응하는 신경 모듈 트리(NMTree)로 변환한다.
  • 세 가지 기본 신경 모듈 정의: 단일 모듈(잎과 루트용), 합산 모듈(덧셈 집계용), 복합 모듈(관계의 복합 추론용).
  • 하향식 방식으로 기반 점수를 계산하며, 각 모듈이 언어적 및 시각적 특징에 기반해 자식의 증거를 누적한다.
  • 학습 중에 모듈 조립을 미분 가능한 방식으로 샘플링하기 위해 Gumbel-Softmax 근사를 사용하여 트리의 이산적 결정에 비해 엔드 투 엔드 최적화를 가능하게 한다.
  • Gumbel-Softmax 샘플러가 내린 딱딱한 결정을 통해 역전파를 수행하기 위해 직선 경로 기울기 추정기를 적용하여 안정적인 훈련을 보장한다.
  • 추가적인 모듈 레이아웃 애너테이션 없이도 이미지와 언어 입력만을 활용하여 전체 NMTree 아키텍처를 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

  • RQ1구조적이고 트리 기반의 신경 모듈 네트워크는 통합적이거나 거시적인 복합 모델에 비해 시각적 기반의 정확성과 해석 가능성에서 향상된 성능을 보일 수 있는가?
  • RQ2의존 구문 분석 트리를 시각적 기반의 추론 기반으로 사용할 경우 성능는 어떻게 변하는가?
  • RQ3Gumbel-Softmax와 직선 경로 기울기 추정은 신경 모듈 네트워크에서 모듈 조립에 영향을 미치는 구문 분석 오류의 영향을 어느 정도 완화할 수 있는가?
  • RQ4제안된 NMTree 모델은 투명성과 해석 가능성을 유지하면서도 더 높은 성능을 달성하는가?
  • RQ5모델의 내부 추론 과정은 복잡한 지시 표현에서 인간 수준의 복합 추론과 어떻게 비교되는가?

주요 결과

  • NMTree는 RefCOCO, RefCOCO+, RefCOCOg 세 벤치마크에서 모두 새로운 최고 성능을 기록하여 기존의 통합형 및 삼항 조합 기반 모델을 능가한다.
  • RefCOCO와 RefCOCO+에서 각각 평균 IoU 75.8%와 72.1%를 기록하여 MAttN 및 AccumAttn를 포함한 이전의 SOTA 방법들을 뛰어넘었다.
  • Gumbel-Softmax 기반의 미분 가능한 모듈 조립 덕분에 구문 분석 오류에 대해 뛰어난 내성성을 보이며, 수동적인 레이아웃 애너테이션 없이도 엔드 투 엔드 훈련이 가능하다.
  • 정성적 분석 결과, 어텐션 맵이 트리의 경로를 따라 점점 더 선명하고 집중적으로 변하며, 신뢰도가 높아지고 추론의 일관성이 향상됨을 보여준다.
  • 인간 평가 결과, NMTree의 내부 추론 단계는 AccumAttn보다 훨씬 명확하고 해석 가능하며, 4점 리커트 척도에서 평균 명확도 평가 점수가 높았다.
  • 모델는 '粉紅색 우산을 지닌 여자 아이가 편한 부츠를 신고 있다'와 같은 복잡한 지시 표현을 구문 트리에 따라 순차적으로 시각적 및 언어적 증거를 통합함으로써 성공적으로 국소화하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.