[논문 리뷰] Visual Relationship Detection with Language Priors
본 연구는 객체와 관계에 대한 시각적 외관을 학습하고 언어 선행 지식을 활용해 수천 개의 시각 관계를 예측하고 위치를 식별하는 확장 가능한 모델을 제안하며, 제로샷 및 향상된 이미지 검색을 가능하게 한다.
Visual relationships capture a wide variety of interactions between pairs of objects in images (e.g. "man riding bicycle" and "man pushing bicycle"). Consequently, the set of possible relationships is extremely large and it is difficult to obtain sufficient training examples for all possible relationships. Because of this limitation, previous work on visual relationship detection has concentrated on predicting only a handful of relationships. Though most relationships are infrequent, their objects (e.g. "man" and "bicycle") and predicates (e.g. "riding" and "pushing") independently occur more frequently. We propose a model that uses this insight to train visual models for objects and predicates individually and later combines them together to predict multiple relationships per image. We improve on prior work by leveraging language priors from semantic word embeddings to finetune the likelihood of a predicted relationship. Our model can scale to predict thousands of types of relationships from a few examples. Additionally, we localize the objects in the predicted relationships as bounding boxes in the image. We further demonstrate that understanding relationships can improve content based image retrieval.
연구 동기 및 목표
- 일부 일반적인 관계의 소수에 국한되지 않고 다양한 시각적 관계의 편향 없는 탐지와 위치화하도록 동기를 제공한다.
- 객체와 술어의 시각적 외관을 학습하고 이를 융합해 관계를 예측하는 두 모듈 모델을 제안한다.
- 유사한 관계를 연결하기 위해 단어 벡터를 사용하는 언어 임베딩 모듈을 도입한다.
- 제로샷 시각적 관계 탐지와 콘텐츠 기반 이미지 검색의 개선을 시연한다.
- 시각적 관계 예측 벤치마킹을 위한 수천 가지 관계 유형을 포함하는 새로운 데이터세트를 제공한다.
제안 방법
- CNNs(VGG) 및 RCNN 제안으로 객체 검출기와 술어 검출기를 각각 학습한다.
- Model visual relationships as V(R) = P_i(O1) * (z_k^T CNN(O1,O2) + s_k) * P_j(O2).
- Project object pairs into a language embedding space with f(R) = w_k^T [word2vec(t_i), word2vec(t_j)] + b_k.
- Encourage semantic similarity by minimizing the variance of distance-weighted embeddings (K(W)).
- Impose a ranking loss L(W) to order observed relationships above unseen ones.
- Combine V, L, and K in a joint objective for training (C + λ1 L + λ2 K).
- At test time, score R* = argmax_R V(R,Θ|O1,O2) f(R,W) for each object pair.
실험 결과
연구 질문
- RQ1객체/술어의 개별 학습 외관을 언어 선행 지식과 결합해 시각적 관계를 탐지할 수 있는가?
- RQ2임베딩 기반의 언어 선행 지식이 인지도 낮은 관계나 보이지 않는 관계의 인식에 어떤 영향을 미치는가?
- RQ3제안된 모델이 수천 가지의 관계 유형으로 확장되고 제로샷 학습을 지원하는가?
- RQ4관계 활용이 이미지 검색 성능을 향상시키는가?
- RQ5새로운 대규모 시각적 관계 데이터셋에서 기존 방법과 비교해 모델의 성능은 어떠한가?
주요 결과
| Phrase Det. R@100 | Phrase Det. R@50 | Relationship Det. R@100 | Relationship Det. R@50 | Predicate Det. R@100 | Predicate Det. R@50 |
|---|---|---|---|---|---|
| 0.07 | 0.04 | - | - | 1.91 | 0.97 |
| 0.09 | 0.07 | 0.09 | 0.07 | 2.03 | 1.47 |
| 2.61 | 2.24 | 1.85 | 1.58 | 7.11 | 7.11 |
| 0.08 | 0.08 | 0.08 | 0.08 | 18.22 | 18.22 |
| 6.39 | 6.65 | 5.47 | 5.27 | 28.87 | 28.87 |
| 8.59 | 9.13 | 9.18 | 9.04 | 35.20 | 35.20 |
| 8.91 | 9.60 | 9.63 | 9.71 | 36.31 | 36.31 |
| 17.03 | 16.17 | 14.70 | 13.86 | 47.87 | 47.87 |
- 전체 모델(V + L + K)은 새로운 데이터세트에서 구문, 관계 및 술어 탐지에 대해 이전 방법보다 상당히 우수하다.
- 언어 선행 지식과 유사성 임베딩이 사용될 때 제로샷 시각적 관계 탐지가 개선된다(K 항).
- 언어 선행 지식은 수천 개의 관계로 확장하고 적은 예제로도 제로샷 평가를 가능하게 한다.
- Visual Phrases 데이터셋에서 전체 모델이 더 높은 mAP와 강한 재현율을 달성하여 임베딩 기반의 선행 지식의 이점을 보여준다.
- 예측된 관계를 활용한 이미지 기반 검색은 Recall@1을 높이고 벤치마크보다 중앙값 순위를 낮추었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.