QUICK REVIEW

[논문 리뷰] Referring Relationships

Ranjay Krishna, Ines Chami|arXiv (Cornell University)|2018. 03. 28.

Multimodal Machine Learning Applications참고 문헌 27인용 수 18

한 줄 요약

이 논문은 <주어-서술어-목적어> 관계를 기반으로 이미지 내 주어진 주체 및 목적어 엔티티를 국소화하는 참조 관계 작업을 소개한다. 반복적인 주의 기반 모델을 제안하며, 서술어를 엔티티 간의 공간 이동으로 간주하여 CLEVR, VRD, Visual Genome에서 최고 성능을 기록했으며, 미사용된 카테고리의 제로샷 국소화를 가능하게 한다.

ABSTRACT

Images are not simply sets of objects: each image represents a web of interconnected relationships. These relationships between entities carry semantic meaning and help a viewer differentiate between instances of an entity. For example, in an image of a soccer match, there may be multiple persons present, but each participates in different relationships: one is kicking the ball, and the other is guarding the goal. In this paper, we formulate the task of utilizing these "referring relationships" to disambiguate between entities of the same category. We introduce an iterative model that localizes the two entities in the referring relationship, conditioned on one another. We formulate the cyclic condition between the entities in a relationship by modelling predicates that connect the entities as shifts in attention from one entity to another. We demonstrate that our model can not only outperform existing approaches on three datasets --- CLEVR, VRD and Visual Genome --- but also that it produces visually meaningful predicate shifts, as an instance of interpretable neural networks. Finally, we show that by modelling predicates as attention shifts, we can even localize entities in the absence of their category, allowing our model to find completely unseen categories.

연구 동기 및 목표

관계적 맥락을 통해 동일한 엔티티 카테고리의 여러 인스턴스를 구분하는 데 도전하는 것.
자유형 언어가 아닌 구조화된 <주어-서술어-목적어> 관계를 입력으로 사용하는 새로운 작업인 참조 관계를 정의하여 시각적 요소와 추론 요소를 분리하는 것.
주어와 목적어 간 순환적이고 이방향 주의 이동을 서술어에 조건화하여 국소화 정확도를 향상시키는 모델을 개발하는 것.
카테고리 외형에 의존하지 않고 서술어를 주의 이동으로 모델링하여, 미사용된 카테고리의 엔티티에 대한 제로샷 국소화를 가능하게 하는 것.
인간이 이해할 수 있는 공간 관계와 일치하는 주의 이동을 시각화하여 해석 가능성(해석 가능성)을 입증하는 것.

제안 방법

서술어를 하나의 엔티티의 주의 맵을 다른 엔티티를 향해 주의를 기울이게 하는 학습된 주의 이동 연산자로 모델링한다.
주어와 목적어가 번갈아가며 서술어 전용 이동 연산자를 통해 상호 주의를 주는 반복적 메시지 전달 메커니즘을 사용한다.
이동 연산자를 공간적 및 맥락적 신호에 기반해 주어에서 목적어로(또한 그 반대) 주의를 이동시키는 미분 가능 변환으로 정의한다.
정답 주어 및 목적어 애너테이션으로부터의 지도를 받으며, 바운딩 박스 국소화에 대해 교차 엔트로피 손실을 사용해 모델을 엔드 투 엔드로 훈련시킨다.
시나리오 그래프를 사용해 주의 사카데를 수행하도록 모델을 확장하여 다중 스텝 추론을 가능하게 한다.
학습된 서술어 이동을 사용자 지정된 카테고리 감독 없이 적용함으로써 제로샷 추론을 위한 모델을 적응시킨다.

실험 결과

연구 질문

RQ1서술어를 엔티티 간 주의 이동으로 모델링하면, 동일한 카테고리의 여러 인스턴스가 존재하는 모호한 장면에서 국소화 정확도가 향상되는가?
RQ2서술어에 조건화된 반복적이고 순환적인 주의 메커니즘이 외형 기반 모델에 비해 더 해석 가능하고 의미적으로 유의미한 주의 패턴을 생성하는가?
RQ3서술어 기반 주의 이동에만 의존하여, 미사용된 카테고리의 엔티티에 대해 제로샷 국소화를 달성할 수 있는가?
RQ4기존 접근법과 비교해 볼 때, 표준 참조 표현 및 시각적 관계 데이터셋에서 국소화 성능 측면에서 제안된 방법은 어떤가?
RQ5학습된 주의 이동이 인간이 이해할 수 있는 공간 관계(예: '위에', '앞에')와 얼마나 일치하는가?

주요 결과

제안된 모델은 CLEVR, VRD, Visual Genome 세 가지 벤치마크 데이터셋에서 최고 성능을 기록했으며, CLEVR에서 평균 IoU 점수는 S-IoU 0.5188, O-IoU 0.5841을 기록했다.
Visual Genome에서 기린에 대해 평균 IoU 0.6361, 코끼리에 대해 0.6877을 기록하여 희귀하고 복잡한 엔티티에 대해서도 뛰어난 성능을 보였다.
공간 이동 기반 모델과 외형 기반 모델을 포함한 베이스라인 모델보다 우수했으며, 특히 동일한 카테고리의 여러 인스턴스를 포함하는 관계에서 두드러진 성능을 보였다. 이 경우 33%, 60.3%, 61%의 관계가 동일한 카테고리의 여러 인스턴스를 가리키고 있었다.
시각화 결과에서 모델이 인간의 직관과 일치하는 의미 있는 주의 이동 패턴을 학습한 것으로 나타났다. 예를 들어 '킥하는' 서술어일 경우 사람에서 공으로 주의가 이동하는 것을 관찰할 수 있었다.
주어 또는 목적어의 카테고리가 제공되지 않더라도 모델이 엔티티를 성공적으로 국소화하여, 미사용 카테고리로의 일반화 능력과 강건성을 입증했다.
모델이 학습한 주의 이동은 공간 관계(예: '위에', '앞에')와 해석 가능하게 일치하며, VRD 및 Visual Genome에서의 정성적 분석을 통해 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.