QUICK REVIEW

[논문 리뷰] Detecting Visual Relationships with Deep Relational Networks

Bo Dai, Yuqi Zhang|arXiv (Cornell University)|2017. 04. 11.

Advanced Image and Video Retrieval Techniques참고 문헌 50인용 수 68

한 줄 요약

논문은 Deep Relational Network (DR-Net)을 제안하여 시각적 관계 탐지를 위해 주체(subject), 술어(predicate), 객체(object) 트리플을 공동으로 추론하고, 공간 구성 및 통계적 의존성을 신경망 내에 모델링하여 VRD 및 sVG 데이터셋에서 기존 방법보다 우수한 성능을 보인다.

ABSTRACT

Relationships among objects play a crucial role in image understanding. Despite the great success of deep learning techniques in recognizing individual objects, reasoning about the relationships among objects remains a challenging task. Previous methods often treat this as a classification problem, considering each type of relationship (e.g. "ride") or each distinct visual phrase (e.g. "person-ride-horse") as a category. Such approaches are faced with significant difficulties caused by the high diversity of visual appearance for each kind of relationships or the large number of distinct visual phrases. We propose an integrated framework to tackle this problem. At the heart of this framework is the Deep Relational Network, a novel formulation designed specifically for exploiting the statistical dependencies between objects and their relationships. On two large datasets, the proposed method achieves substantial improvement over state-of-the-art.

연구 동기 및 목표

강건한 시각적 관계 탐지가 독립적 객체 인식 너머의 필요성을 제시한다.
공간적 및 통계적 관계를 활용하여 (주체, 술어, 객체) 트리플을 예측하는 프레임워크를 도입한다.
확률적 추론을 신경망으로 풀어 end-to-end 학습을 가능하게 하는 DR-Net을 개발한다.
appearance, 공간 마스크, 통계적 의존성의 결합이 더 우수한 성능을 낳는다는 점을 보인다.

제안 방법

Faster R-CNN으로 객체를 검출하고 각 후보 객체에 대한 appearance 특징을 추출한다.
객체 쌍을 구성하고 가능성이 낮은 관계를 제거하기 위해 쌍 필터를 적용한다.
선택된 쌍에 대해, 포함 박스에서 appearance 특징을 추출하고 주체와 객체를 위한 두 개의 이중 공간 마스크(32x32)를 얻어 64D로 압축한다.
q_s, q_r, q_o가 각각의 추론 단위를 공유하는 신경층으로 추론을 펼쳐 s, r, o에 대한 반복적 후방 업데이트를 수행하도록 Inferencing을 전개하는 DR-Net을 제안한다.
구성요소 간 대칭 가중치 제약으로 관계를 모델링하고 엔드-투-엔드 구분 학습을 가능하게 한다.
DR-Net을 CRF 기반 형식 및 다른 베이스라인과 비교하여 술어 인식에서 의미 있는 이점을 보임.

실험 결과

연구 질문

RQ1주체, 술어, 객체 간의 통계적 의존성을 jointly 학습된 모델이 시각적 관계 탐지를 개선할 수 있는가?
RQ2 appearance, 공간 구성, 학습된 관계 추론을 통합하는 것이 분류 기반 또는 CRF 기반 접근법보다 우수한가?
RQ3추론 단위의 수와 가중치 공유가 DR-Net의 성능에 어떤 영향을 미치는가?
RQ4관계 탐지뿐 아니라 장면 그래프 생성을 위한 프레임워크의 효과가 있는가?

주요 결과

데이터셋	작업	Recall@50	Recall@100
VRD	술어 인식 (DR-Net)	80.78	81.90
sVG	술어 인식 (DR-Net)	88.26	91.26

DR-Net은 VRD 및 sVG에서 술어 인식에 대해_prior 방법 대비 상당한 재현율 향상을 보였다(예: DR-Net 재현율@50/100이 베이스라인보다 현저히 높다).
appearance와 공간 구성의 두 요소를 모두 포함하는 것이 어느 한 쪽만으로는 얻을 수 없는 성능 향상을 가져왔다.
DR-Net은 CRFs 대비 통계적 의존성을 활용하는 능력이 의미 있는 perplexity 감소와 더 나은 술어 구분을 낳았다.
추론 단위가 많아질수록 재현율이 일반적으로 개선되지만 가중치 공유 여부에 따라 수익이 달라지며, 비공유 구성은 충분한 단위가 있으면 더 큰 이득을 얻을 수 있다.
이 프레임워크는 DR-Net 구성에서 장면 그래프 생성을 위한 확장에도 적용 가능하며 ground-truth 그래프와의 유사도가 높아진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.