QUICK REVIEW

[논문 리뷰] Learning to Assemble Neural Module Tree Networks for Visual Grounding

Daqing Liu, Hanwang Zhang|arXiv (Cornell University)|2018. 12. 08.

Multimodal Machine Learning Applications참고 문헌 44인용 수 30

한 줄 요약

이 논문은 자연어 문장의 의존 구문 분석 트리에 따라 신경 모듈을 조립함으로써 시각적 기반을 수행하는 새로운 엔드 투 엔드 프레임워크인 신경 모듈 트리 네트워크(NMTree)를 제안한다. 언어를 미세한 언어적 구성 요소로 분해하고, Gumbel-Softmax를 사용하여 모듈 조립을 미분 가능하게 하여 설명 가능하고 하향식 추론을 가능하게 하며, RefCOCO, RefCOCO+, RefCOCOg 벤치마크에서 최신 기술을 초월하는 성능을 달성한다.

ABSTRACT

Visual grounding, a task to ground (i.e., localize) natural language in images, essentially requires composite visual reasoning. However, existing methods over-simplify the composite nature of language into a monolithic sentence embedding or a coarse composition of subject-predicate-object triplet. In this paper, we propose to ground natural language in an intuitive, explainable, and composite fashion as it should be. In particular, we develop a novel modular network called Neural Module Tree network (NMTree) that regularizes the visual grounding along the dependency parsing tree of the sentence, where each node is a neural module that calculates visual attention according to its linguistic feature, and the grounding score is accumulated in a bottom-up direction where as needed. NMTree disentangles the visual grounding from the composite reasoning, allowing the former to only focus on primitive and easy-to-generalize patterns. To reduce the impact of parsing errors, we train the modules and their assembly end-to-end by using the Gumbel-Softmax approximation and its straight-through gradient estimator, accounting for the discrete nature of module assembly. Overall, the proposed NMTree consistently outperforms the state-of-the-arts on several benchmarks. Qualitative results show explainable grounding score calculation in great detail.

연구 동기 및 목표

기존의 통합 문장 임베딩 또는 거시적 주어-서술어-목적어 삼항 조합에 의존하는 시각적 기반 방법의 한계를 해결하기 위해.
의존 구문 분석 트리를 구조적 체계로 활용하여 미세한, 인간과 유사한 복합 추론을 가능하게 하기 위해.
모듈화 설계를 통해 시각적 인식과 복합 추론을 분리하여 시각-언어적 편향을 줄이기 위해.
Gumbel-Softmax 근사와 직선 경로 기울기 추정을 통한 엔드 투 엔드 훈련을 통해 구문 분석 오류의 영향을 최소화하기 위해.
정확성과 해석 가능성의 균형을 이루며 높은 성능과 해석 가능성을 동시에 달성하기 위해.

제안 방법

의존 구문 분석 트리(DPTs)를 각 노드가 시각적 기반 점수 계산을 위한 신경 모듈에 대응하는 신경 모듈 트리(NMTree)로 변환한다.
세 가지 기본 신경 모듈 정의: 단일 모듈(잎과 루트용), 합산 모듈(덧셈 집계용), 복합 모듈(관계의 복합 추론용).
하향식 방식으로 기반 점수를 계산하며, 각 모듈이 언어적 및 시각적 특징에 기반해 자식의 증거를 누적한다.
학습 중에 모듈 조립을 미분 가능한 방식으로 샘플링하기 위해 Gumbel-Softmax 근사를 사용하여 트리의 이산적 결정에 비해 엔드 투 엔드 최적화를 가능하게 한다.
Gumbel-Softmax 샘플러가 내린 딱딱한 결정을 통해 역전파를 수행하기 위해 직선 경로 기울기 추정기를 적용하여 안정적인 훈련을 보장한다.
추가적인 모듈 레이아웃 애너테이션 없이도 이미지와 언어 입력만을 활용하여 전체 NMTree 아키텍처를 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1구조적이고 트리 기반의 신경 모듈 네트워크는 통합적이거나 거시적인 복합 모델에 비해 시각적 기반의 정확성과 해석 가능성에서 향상된 성능을 보일 수 있는가?
RQ2의존 구문 분석 트리를 시각적 기반의 추론 기반으로 사용할 경우 성능는 어떻게 변하는가?
RQ3Gumbel-Softmax와 직선 경로 기울기 추정은 신경 모듈 네트워크에서 모듈 조립에 영향을 미치는 구문 분석 오류의 영향을 어느 정도 완화할 수 있는가?
RQ4제안된 NMTree 모델은 투명성과 해석 가능성을 유지하면서도 더 높은 성능을 달성하는가?
RQ5모델의 내부 추론 과정은 복잡한 지시 표현에서 인간 수준의 복합 추론과 어떻게 비교되는가?

주요 결과

NMTree는 RefCOCO, RefCOCO+, RefCOCOg 세 벤치마크에서 모두 새로운 최고 성능을 기록하여 기존의 통합형 및 삼항 조합 기반 모델을 능가한다.
RefCOCO와 RefCOCO+에서 각각 평균 IoU 75.8%와 72.1%를 기록하여 MAttN 및 AccumAttn를 포함한 이전의 SOTA 방법들을 뛰어넘었다.
Gumbel-Softmax 기반의 미분 가능한 모듈 조립 덕분에 구문 분석 오류에 대해 뛰어난 내성성을 보이며, 수동적인 레이아웃 애너테이션 없이도 엔드 투 엔드 훈련이 가능하다.
정성적 분석 결과, 어텐션 맵이 트리의 경로를 따라 점점 더 선명하고 집중적으로 변하며, 신뢰도가 높아지고 추론의 일관성이 향상됨을 보여준다.
인간 평가 결과, NMTree의 내부 추론 단계는 AccumAttn보다 훨씬 명확하고 해석 가능하며, 4점 리커트 척도에서 평균 명확도 평가 점수가 높았다.
모델는 '粉紅색 우산을 지닌 여자 아이가 편한 부츠를 신고 있다'와 같은 복잡한 지시 표현을 구문 트리에 따라 순차적으로 시각적 및 언어적 증거를 통합함으로써 성공적으로 국소화하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.