Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Variation-structured Reinforcement Learning for Visual Relationship and Attribute Detection

Xiaodan Liang, Lisa Lee|arXiv (Cornell University)|2017. 03. 08.
Multimodal Machine Learning Applications참고 문헌 25인용 수 52
한 줄 요약

VRL은 변이 구조화된 동작 그래프를 활용한 심층 강화학습 프레임워크로, 언어 priors와 전역 컨텍스트를 이용해 수천 가지의 관계/속성 유형으로 확장하고 시퀀스 방식으로 시각 관계와 속성을 순차적으로 탐지한다. VRD와 Visual Genome에서 제로샷 시나리오를 포함한 최첨단 결과를 달성한다.

ABSTRACT

Despite progress in visual perception tasks such as image classification and detection, computers still struggle to understand the interdependency of objects in the scene as a whole, e.g., relations between objects or their attributes. Existing methods often ignore global context cues capturing the interactions among different object instances, and can only recognize a handful of types by exhaustively training individual detectors for all possible relationships. To capture such global interdependency, we propose a deep Variation-structured Reinforcement Learning (VRL) framework to sequentially discover object relationships and attributes in the whole image. First, a directed semantic action graph is built using language priors to provide a rich and compact representation of semantic correlations between object categories, predicates, and attributes. Next, we use a variation-structured traversal over the action graph to construct a small, adaptive action set for each step based on the current state and historical actions. In particular, an ambiguity-aware object mining scheme is used to resolve semantic ambiguity among object categories that the object detector fails to distinguish. We then make sequential predictions using a deep RL framework, incorporating global context cues and semantic embeddings of previously extracted phrases in the state vector. Our experiments on the Visual Relationship Detection (VRD) dataset and the large-scale Visual Genome dataset validate the superiority of VRL, which can achieve significantly better detection results on datasets involving thousands of relationship and attribute types. We also demonstrate that VRL is able to predict unseen types embedded in our action graph by learning correlations on shared graph nodes.

연구 동기 및 목표

  • 개별 탐지기 외에도 물체 관계와 속성을 함께 탐지하여 holistic한 장면 이해를 촉진한다.
  • 언어 priors로 구축된 방향성 의미 그래프를 사용해 물체 간의 글로벌 상호 의존성을 포착한다.
  • 대형 행동 공간에서 효율적인 RL을 가능하게 하는 작고 적응 가능한 동작集을 생성하는 변이 구조 traversal를 개발한다.
  • ambiguity-aware 물체 채굴 스킴으로 물체 범주 간의 의미적 애매함을 해소한다.
  • 글로벌 이미지 컨텍스트와 히스토리 임베딩을 도입해 RL의 순차적 추론 성능을 향상한다.

제안 방법

  • 노드가 물체 범주, 속성, 술어를 나타내고 의미 상관 관계를 인코딩하는 간선으로 연결된 방향성 의미 작용 그래프를 구성한다.
  • 각 단계에서 작은 동작 집합을 동적으로 형성하는 변이 구조 traversal를 사용해 수천 개의 행위 공간을 관리 가능한 부분집합으로 축소한다.
  • 매 단계에서(subject attribute, predicate, next object category) 총 3개의 의사결정 과정을 적용하고 애매함에 민감한 채굴로 탐색한다.
  • 물체 수준 특징, 전체 이미지 특징, Skip-thought 모델의 히스토리 구문 임베딩을 결합한 상태 벡터를 인코딩한다.
  • 특성, 술어, 물체 범주 각각에 대한 3개의 별도 심층 Q-네트워크를 공유 재생 메모리와 타깃 네트워크를 사용해 학습하며, ε-탐욕적 학습 전략을 적용한다.
  • VRD와 Visual Genome에서 재현 기반 지표를 사용해 평가하고 제로샷 평가를 포함하며, 공유 탐지기 vs 개별 탐지기를 사용하는 최첨단 방법과 비교한다.

실험 결과

연구 질문

  • RQ1복잡한 장면에서 수천 개의 잠재 관계 및 속성을 효과적으로 발견하고 위치를 찾는 깊은 VRL 프레임워크가 가능한가?
  • RQ2변이 구조화된 행동 그래프가 큰 조합적 행동 공간에서 학습 효율성과 일반화를 향상시키는가?
  • RQ3언어 priors와 글로벌 컨텍스트가 관계 및 속성 탐지 성능에 어떤 영향을 미치는가?
  • RQ4행동 그래프 프레임워크 내에서 보지 못한 관계 및 속성 유형에 대해 제로샷으로 일반화할 수 있는가?

주요 결과

방법구문 R@100구문 R@100관계 R@100관계 R@50
Visual Phrases [22]0.07---
Joint CNN+R-CNN [25]0.090.070.090.07
Joint CNN+RPN [25]2.182.131.171.15
Lu et al. V only [16]2.612.241.851.58
Faster R-CNN [20]3.313.24--
Joint CNN+Trained RPN [20]3.513.172.221.98
Faster R-CNN V only [20]6.135.615.904.26
Lu et al. [16]17.0316.1714.7013.86
Our VRL22.6021.3720.7918.19
Lu et al. [16] (zero-shot)3.763.363.283.13
Our VRL (zero-shot)10.319.178.527.94
  • VRL은 VRD 및 Visual Genome에서 관계 구문 탐지 및 관계 탐지에 대해 높은 recall@100 및 recall@50를 달성하며, 제로샷 시나리오를 포함한 강력한 베이스라인보다 우수한 성능을 보인다.
  • 변이 구조 traversal은 실제로 효과적인 행동 공간을 크게 축소하며(예: 술어 행위가 평균 약 15로 감소), 학습 안정성과 속도를 향상시킨다.
  • 애매함에 민감한 객체 채굴은 장면 컨텍스트를 활용해 범주 선택을 개선하고 더 구체적인 예측(예: 남자와 스키어 구분, 모자와 헬멧 구분)을 가능하게 한다.
  • 히스토리 구문 임베딩과 글로벌 이미지 컨텍스트는 히스토리가 없거나 단순한 히스토리 표현을 사용하는 변형에 비해 성능을 크게 향상시킨다.
  • 공유 그래프 노드와 학습된 상관 관계를 활용해 액션 그래프에 내재된 보지 못한 유형을 예측하는 강력한 제로샷 능력을 보여준다.
  • VRD에서 관계 구문 탐지 및 관계 탐지 모두에서 최첨단 대비 큰 폭으로 향상된 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.