Skip to main content
QUICK REVIEW

[논문 리뷰] Scene Graph Generation via Conditional Random Fields

Weilin Cong, William Yang Wang|arXiv (Cornell University)|2018. 11. 20.
Multimodal Machine Learning Applications참고 문헌 26인용 수 18
한 줄 요약

이 논문은 시나리오 그래프에서 주어진 대상-관계-목적어 순서와 의미적 호환성을 모델링함으로써 관계 예측을 향상시키는 새로운 시나리오 그래프 생성 모델인 SG-CRF를 제안한다. 조건부 랜덤 필드를 활용함으로써 SG-CRF는 CLEVR, VRD, Visual Genome에서 각각 Recall@100이 49.95%, 50.47%, 54.77%로 최신 기술 수준을 달성한다.

ABSTRACT

Despite the great success object detection and segmentation models have achieved in recognizing individual objects in images, performance on cognitive tasks such as image caption, semantic image retrieval, and visual QA is far from satisfactory. To achieve better performance on these cognitive tasks, merely recognizing individual object instances is insufficient. Instead, the interactions between object instances need to be captured in order to facilitate reasoning and understanding of the visual scenes in an image. Scene graph, a graph representation of images that captures object instances and their relationships, offers a comprehensive understanding of an image. However, existing techniques on scene graph generation fail to distinguish subjects and objects in the visual scenes of images and thus do not perform well with real-world datasets where exist ambiguous object instances. In this work, we propose a novel scene graph generation model for predicting object instances and its corresponding relationships in an image. Our model, SG-CRF, learns the sequential order of subject and object in a relationship triplet, and the semantic compatibility of object instance nodes and relationship nodes in a scene graph efficiently. Experiments empirically show that SG-CRF outperforms the state-of-the-art methods, on three different datasets, i.e., CLEVR, VRD, and Visual Genome, raising the Recall@100 from 24.99% to 49.95%, from 41.92% to 50.47%, and from 54.69% to 54.77%, respectively.

연구 동기 및 목표

  • 기존의 시나리오 그래프 생성 방법이 모호한 실제 세계의 장면에서 주어진 대상과 목적어를 구분하는 데에 한계가 있다는 문제를 해결하기 위해.
  • 시각적 질문 응답, 이미지 캡션 생성, 의미적 이미지 검색과 같은 인지 시각 작업의 성능을 향상시키기 위해.
  • 이전 방법들보다 더 효과적으로 관계 삼중항에서 주어진 대상과 목적어의 순서를 모델링하기 위해.
  • 시나리오 그래프에서 객체 인스턴스와 관계 간의 의미적 호환성을 향상시켜 더 나은 추론과 이해를 가능하게 하기 위해.

제안 방법

  • SG-CRF는 관계 삼중항에서 주어진 대상과 목적어의 순서를 모델링하기 위해 조건부 랜덤 필드(CRF)를 사용한다.
  • 모델은 시나리오 그래프에서 객체 노드와 관계 노드 간의 의미적 호환성을 명시적으로 학습한다.
  • 예측된 관계에서 타당한 주어진 대상-목적어 순서를 보장하기 위해 구조적 제약 조건을 CRF 프레임워크에 통합한다.
  • 구조적 예측 프레임워크를 사용하여 객체 검출과 관계 예측을 공동 최적화한다.
  • 역전파를 통해 엔드 투 엔드 학습이 가능한 미분 가능한 CRF 레이어를 사용한다.
  • 의미적으로 일관되고 순서가 정렬된 삼중항을 우선시함으로써 모호한 객체 인스턴스를 처리할 수 있도록 아키텍처를 설계한다.

실험 결과

연구 질문

  • RQ1실제 이미지에서 주어진 대상-목적어의 모호성은 어떻게 효과적으로 시나리오 그래프 생성 과정에서 해결될 수 있는가?
  • RQ2주어진 대상과 목적어의 순서를 모델링하면 관계 예측 성능 향상에 기여하는가?
  • RQ3객체와 관계 간의 의미적 호환성을 강제로 적용하면 시나리오 그래프의 품질은 어느 정도 향상되는가?
  • RQ4CRF와 같은 구조적 예측 접근 방식이 시나리오 그래프 생성에서 자동 회귀적 또는 독립적 예측 방법보다 우월한가?

주요 결과

  • SG-CRF는 CLEVR 데이터셋에서 Recall@100이 49.95%를 기록하여 이전 최신 기술 수준인 24.99%보다 뚜렷한 향상을 이뤘다.
  • VRD 데이터셋에서는 Recall@100이 41.92%에서 50.47%로 향상되어 강력한 일반화 능력을 보였다.
  • Visual Genome 데이터셋에서는 SG-CRF가 Recall@100이 54.77%를 기록하여 이전 최신 기술 수준을 약간 상회했다.
  • 성능 향상 요인은 주어진 대상-목적어 순서와 의미적 호환성을 효과적으로 학습할 수 있는 능력에 기인한다.
  • 결과적으로 CRF를 통한 구조적 예측은 이전 방법들보다 더 일관되고 정확한 시나리오 그래프를 생성함을 보여주었다.
  • 이 방법은 합성(CLEVR), 실제 세계(VC), 복잡한(Visual Genome) 기준을 포함한 다양한 데이터셋에서 잘 일반화됨을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.