[논문 리뷰] Visual Translation Embedding Network for Visual Relation Detection
VTransE 엔드-투-엔드 네트워크는 번역 임베딩을 사용하여 주어(subject), 술어(predicate), 객체(object)를 저차원 관계 공간에 임베딩함으로써 시각적 관계를 학습하고, 객체 탐지와 관계 예측을 동시에 수행하며 객체와 관계 간 지식 전달을 가능하게 한다.
Visual relations, such as "person ride bike" and "bike next to car", offer a comprehensive scene understanding of an image, and have already shown their great utility in connecting computer vision and natural language. However, due to the challenging combinatorial complexity of modeling subject-predicate-object relation triplets, very little work has been done to localize and predict visual relations. Inspired by the recent advances in relational representation learning of knowledge bases and convolutional object detection networks, we propose a Visual Translation Embedding network (VTransE) for visual relation detection. VTransE places objects in a low-dimensional relation space where a relation can be modeled as a simple vector translation, i.e., subject + predicate $\approx$ object. We propose a novel feature extraction layer that enables object-relation knowledge transfer in a fully-convolutional fashion that supports training and inference in a single forward/backward pass. To the best of our knowledge, VTransE is the first end-to-end relation detection network. We demonstrate the effectiveness of VTransE over other state-of-the-art methods on two large-scale datasets: Visual Relationship and Visual Genome. Note that even though VTransE is a purely visual model, it is still competitive to the Lu's multi-modal model with language priors.
연구 동기 및 목표
- 객체 탐지와 캡션 작성 이상의 시각적 관계 모델링의 필요성을 동원하여 비전과 언어를 연결하고자 한다
- 롱테일 술어 분포를 다루기 위한 시각적 관계의 번역 임베딩 기반 표현을 제안한다
- 엔드-투-엔드 CNN에서 객체와 술어 간의 지식 전달을 가능하게 하는 미분가능한 특징 추출 Layer를 도입한다
- VRD 및 Visual Genome 데이터셋에서 언어 priors 없이도 VTransE가 관계 탐지를 개선함을 입증한다
- 엔드-투-엔드 학습이 관계 맥락을 통한 객체 탐지를 향상시킨다
제안 방법
- 저차원 관계 공간에서 s + p ≈ o 로 관계를 표현하고, 주체/객체를 이 공간으로 매핑하는 投影 행렬 Ws, Wo를 사용한다
- 각 술어 p에 대해 시각적 관계를 모델링하는 변환 벡터 tp를 사용하여 거리 기반 또는 softmax 기반 손실을 가능하게 한다
- classeme, 위치 정보, bilinear 보간된 시각적 특징을 결합해 x_s와 x_o를 구성하는 differentiable Feature Extraction Layer를 도입하여 엔드-투-엔드 지식 전달을 가능하게 한다
- RoI 풀링 대신 bilinear 보간을 사용하여 엔드-투-엔드 학습에 필요한 매끄러운 그래디언트를 생성한다
- 다중 작업 손실 L = Lobj + 0.4 Lrel을 사용하여 학습하며, Lrel은 술어별 소프트맥스와 번역 기반 채점 항을 포함한다
- 객체 탐지는 VGG-16을 사용하는 Faster-RCNN을 사용하되 관계 학습을 지원하기 위해 bilinear 보간 기반 특징 추출을 사용한다
- 관계 점수 S_s,p,o를 객체 탐지 점수 S_s, 술어 예측 점수 S_p, 객체 점수 S_o의 합으로 계산한다: S_s,p,o = S_s + S_p + S_o
실험 결과
연구 질문
- RQ1저차원 번역 공간에 시각적 관계를 임베딩하는 것이 JointBox 스타일 모델에 비해 술어 예측을 향상시키는가?
- RQ2어떤 특징(classeme, 위치, 시각적)이 관계 탐지에 가장 기여하며 특징 융합이 서로 다른 관계 유형에 어떻게 영향을 미치는가?
- RQ3엔드-투-엔드 VTransE가 맥락적 관계 학습을 통해 객체 탐지 및 그 반대 방향으로 개선될 수 있는가?
- RQ4VRD 및 Visual Genome에서 VTransE의 성능은 제로샷 상황을 포함해 최첨단 시각적 관계 모델과 비교하여 어떠한가?
주요 결과
- VTransE가 VRD 및 VG 데이터셋에서 술어 예측에서 JointBox보다 우수하다(R@50, R@100)
- 세 가지 특징 유형( classeme, 위치, 시각적)을 학습 가능한 스케일링과 함께 사용할 때 동사, 공간적 관계, 전치사, 비교 관계 전반에서 관계 탐지가 가장 잘 된다
- 엔드-투-엔드 학습으로 VTransE가 VRD 및 VG에서 객체 탐지 mAP를 향상시켜 객체와 관계 간의 상호 학습을 보여준다
- VTransE(순수 시각적) 가 Lu’s-VLK를 여러 작업에서 능가하여 시각적 관계에 대한 번역 임베딩의 이점을 입증한다
- 2단계 VTransE(VTransE-2stage)는 엔드-투-엔드 VTransE에 비해 뒤처지며 공동 최적화의 가치가 강조된다
- 제로샷 결과는 모든 방법에서 상당한 저하를 보이며, 언어 priors 없이 동사/객체 조합을 일반화하는 데 도전이 있음을 시사한다
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.