Skip to main content
QUICK REVIEW

[논문 리뷰] BGT-Net: Bidirectional GRU Transformer Network for Scene Graph Generation

Naina Dhingra, Florian Ritter|arXiv (Cornell University)|2021. 01. 01.
Multimodal Machine Learning Applications참고 문헌 1인용 수 2
한 줄 요약

BGT-Net는 시각적 지식 그래프 생성을 위한 새로운 이중 방향 GRU 트랜스포머 네트워크를 제안하며, BiGRU를 통한 이중 방향 객체 간 통신을 통해 객체 표현을 향상시키고, 객체 및 간선의 맥락 예측을 위해 이중 트랜스포머 인코더를 사용한다. Visual Genome, Open Images, VRD 데이터셋에서 빈도 소프트닝과 편향 적응을 조합하여 장수 분포 편향을 완화함으로써 최신 기술 수준(SOTA)의 성능을 달성한다.

ABSTRACT

Scene graphs are nodes and edges consisting of objects and object-object relationships, respectively. Scene graph generation (SGG) aims to identify the objects and their relationships. We propose a bidirectional GRU (BiGRU) transformer network (BGT-Net) for the scene graph generation for images. This model implements novel object-object communication to enhance the object information using a BiGRU layer. Thus, the information of all objects in the image is available for the other objects, which can be leveraged later in the object prediction step. This object information is used in a transformer encoder to predict the object class as well as to create object-specific edge information via the use of another transformer encoder. To handle the dataset bias induced by the long-tailed relationship distribution, softening with a log-softmax function and adding a bias adaptation term to regulate the bias for every relation prediction individually showed to be an effective approach. We conducted an elaborate study on experiments and ablations using open-source datasets, i.e., Visual Genome, Open-Images, and Visual Relationship Detection datasets, demonstrating the effectiveness of the proposed model over state of the art.

연구 동기 및 목표

  • 시각적 지식 그래프 생성 데이터셋에서 장수 관계 분포 문제를 해결하기 위해.
  • 이미지 내 검출된 모든 객체 간 이중 방향 정보 흐름을 가능하게 하여 객체 표현을 향상시키기 위해.
  • 트랜스포머 인코더를 사용해 객체 기반 간선 맥락을 모델링하여 관계 예측 정확도를 향상시키기 위해.
  • 희귀 관계 예측에 대한 데이터셋 편향의 부정적 영향을 줄이되, 빈번한 관계 예측 성능을 저하시키지 않기 위해.
  • 다양한 벤치마크 데이터셋에서 시각적 지식 그래프 검출 및 분류 모두 최신 기술 수준의 성능을 달성하기 위해.

제안 방법

  • 모든 객체가 다른 모든 객체로부터의 맥락 정보를 집계할 수 있도록 전체 객체 간 소통을 가능하게 하기 위해 이중 방향 GRU(BiGRU) 레이어를 사용한다.
  • 집계된 객체 정보를 수신한 후 객체 클래스를 예측하기 위해 스케일드-도트 곱 주목적 attention을 갖춘 트랜스포머 인코더를 활용한다.
  • 각 객체별로 간선 맥락 특징을 추출하기 위해 객체당 두 번째 트랜스포머 인코더를 구현한다.
  • 주어진 주체-객체 관계 분포에 대해 로그-소프트맥스 함수를 적용하여 예측 분포를 소프트닝한다.
  • 장면 특화 입력을 기반으로 주체-객체 쌍별로 편향을 동적으로 조정하는 편향 적응(BA) 메커니즘을 도입한다.
  • 빈도 소프트닝과 편향 적응을 조합하여 Visual Genome와 같은 데이터셋에서 관계의 장수 분포를 보완한다.

실험 결과

연구 질문

  • RQ1BiGRU를 통한 이중 방향 객체 간 소통이 시각적 지식 그래프 생성에서 객체 표현 학습에 기여하는가?
  • RQ2객체 클래스 예측을 위한 하나, 간선 맥락을 위한 하나의 전용 트랜스포머 인코더를 사용하는 것이 관계 예측 성능 향상에 기여하는가?
  • RQ3빈도 소프트닝과 편향 적응이 희귀 관계에 대한 성능 저하를 효과적으로 완화할 수 있는가? 이는 빈번한 관계 예측 성능에 해를 끼치지 않는다.
  • RQ4BGT-Net은 MOTIFS와 같은 최신 기술 수준의 모델과 비교해 표준 SGG 벤치마크에서 어떻게 성능을 내는가?
  • RQ5BGT-Net은 Visual Genome, Open Images, Visual Relationship Detection와 같은 다양한 데이터셋에 대해 얼마나 잘 일반화되는가?

주요 결과

  • BGT-Net는 Visual Genome 데이터셋에서 시각적 지식 그래프 검출 및 분류 프로토콜 양쪽 모두에서 이전 SOTA 모델을 능가하는 최신 기술 수준의 성능을 달성한다.
  • 빈도 소프트닝과 편향 적응의 효과적인 활용 덕분에 희귀 관계에 대한 리콜이 크게 향상되었다.
  • 정성적 결과 분석을 통해 BGT-Net은 MOTIFS보다 더 의미적으로 정확하고 시각적으로 일관된 시각적 지식 그래프를 생성하며, 그림에서 주황색으로 표시된 올바른 또는 타당한 예측 비율이 높다.
  • 절단 실험을 통해 BiGRU 기반 객체 간 소통과 이중 트랜스포머 인코더 아키텍처가 성능 향상에 기여한다는 것이 확인되었다.
  • 편향 적응 메커니즘이 빈번한 관계에 대한 과신을 줄이고, 특히 SGCls 프로토콜에서 희귀 관계의 예측 품질을 향상시키는 데 효과적이다.
  • 모델는 높은 객체 검출 정확도를 유지하며, 객체 예측 오류는 극히 드물게 발생하여 객체 검출 단계에서의 강건성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.