Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring the Semantics for Visual Relationship Detection.

Wentong Liao, Cuiling Lan|arXiv (Cornell University)|2019. 04. 03.
Multimodal Machine Learning Applications참고 문헌 31인용 수 5
한 줄 요약

이 논문은 시각적 관계 탐지 성능을 햖스키기 위해 원천-대상 클래스인지적 변환을 활용하여 개체 및 관계 특징을 정밀하게 다듬고, 의미적 맥락을 위한 클래스 확률 임bedding을 통합하며, 검색 공간을 줄이기 위해 의미 인지 관계 필터를 적용하는 새로운 프레임워크인 의미 지도 그래프 관계 신경망(SGRN)을 제안한다. 이 방법은 Visual Genome에서 최고 성능을 기록하며 개체 탐지 mAP를 4.2% 향상시킨다.

ABSTRACT

Scene graph construction / visual relationship detection from an image aims to give a precise structural description of the objects (nodes) and their relationships (edges). The mutual promotion of object detection and relationship detection is important for enhancing their individual performance. In this work, we propose a new framework, called semantics guided graph relation neural network (SGRN), for effective visual relationship detection. First, to boost the object detection accuracy, we introduce a source-target class cognoscitive transformation that transforms the features of the co-occurent objects to the target object domain to refine the visual features. Similarly, source-target cognoscitive transformations are used to refine features of objects from features of relations, and vice versa. Second, to boost the relation detection accuracy, besides the visual features of the paired objects, we embed the class probability of the object and subject separately to provide high level semantic information. In addition, to reduce the search space of relationships, we design a semantics-aware relationship filter to exclude those object pairs that have no relation. We evaluate our approach on the Visual Genome dataset and it achieves the state-of-the-art performance for visual relationship detection. Additionally, Our approach also significantly improves the object detection performance (i.e. 4.2\% in mAP accuracy).

연구 동기 및 목표

  • 개체 및 관계 탐지 간 상호 보완적 감시를 강화하여 시각적 관계 탐지 성능을 향상시키기 위해.
  • 공시되는 개체 간의 특징이나 관계 예측에서 노이즈 또는 모호한 시각적 특징 문제를 해결하기 위해인지적 특징 변환을 적용하기 위해.
  • 의미적으로 불가능한 개체 쌍을 제거함으로써 잠재적 관계의 검색 공간을 줄이기 위해.
  • 관계 예측 정확도 향상을 위해 고수준 의미 정보(클래스 확률)를 관계 예측에 통합하기 위해.
  • 동시에 개체 탐지 정확도를 향상시키면서 Visual Genome 벤치마크에서 최고 성능을 달성하기 위해.

제안 방법

  • 공시되는 개체에서 지식을 이전하여 대상 개체 영역으로 특징을 정밀하게 다듬기 위해 원천-대상 클래스인지적 변환을 도입한다.
  • 개체 특징과 관계 특징 간에 상호 작용을 통해 이중 방향 특징 향상을 가능하게 하기 위해 동일한 인지적 변환을 적용한다.
  • 관계 예측 모듈에 주어진 주어 및 목적어의 개별 클래스 확률을 임bedding하여 고수준 의미 맥락을 통합한다.
  • 의미적 호환성 기반으로 타당한 관계를 가지지 않을 가능성이 높은 개체 쌍을 제거함으로써 의미 인지 관계 필터를 설계한다.
  • 개체 간 관계를 모델링하기 위해 그래프 신경망 아키텍처를 사용하며, 향상된 특징과 의미 우선 정보를 통합하여 추론 성능을 향상시킨다.
  • 개체 탐지 및 관계 탐지의 공동 최적화를 통해 Visual Genome 데이터셋에서 종단 간(end-to-end)으로 모델을 훈련시킨다.

실험 결과

연구 질문

  • RQ1개체 탐지와 관계 탐지 간의 상호 보완적 감시를 어떻게 활용하여 양 측면의 성능을 향상시킬 수 있는가?
  • RQ2인지적 특징 변환은 개체 및 관계 탐지의 시각적 특징 표현을 얼마나 향상시킬 수 있는가?
  • RQ3클래스 확률 임bedding 통합이 관계 예측 정확도 향상에 기여하는가?
  • RQ4의미 인지 필터는 정확도를 훼손하지 않으면서 잠재적 관계의 검색 공간을 얼마나 효과적으로 줄이는가?
  • RQ5제안된 프레임워크는 시각적 관계 탐지에서 최고 성능을 달성하면서 동시에 개체 탐지 정확도를 향상시키는가?

주요 결과

  • 제안된 SGRN 프레임워크는 시각적 관계 탐지에서 Visual Genome 데이터셋에서 최고 성능을 기록한다.
  • 기준 모델 대비 개체 탐지 mAP가 4.2% 향상되어 상호 강화 효과가 뚜렷하다.
  • 클래스 확률 임bedding 통합으로 더 정확하고 의미적으로 타당한 관계 예측이 가능해졌다.
  • 의미 인지 관계 필터는 후보 관계 수를 효과적으로 줄여 추론 효율성과 정밀도를 향상시켰다.
  • 원천-대상 인지적 변환은 특징 품질을 크게 향상시켜 개체 및 관계 탐지 정확도 향상에 기여했다.
  • 제거 분석(ablation study) 결과 각 구성 요소—특징 변환, 의미 임bedding, 필터링—이 전체 성능 향상에 기여한다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.