QUICK REVIEW

[논문 리뷰] Scene Graph Generation by Iterative Message Passing

Danfei Xu, Yuke Zhu|arXiv (Cornell University)|2017. 01. 10.

Multimodal Machine Learning Applications인용 수 102

한 줄 요약

이 논문은 이미지에서 시각적으로 근거된 장면 그래프를 생성하기 위해 객체와 관계 예측을 프라이멀-듀얼 메시지 패싱으로 반복적으로 정제하는 노드(객체)와 간선(관계)으로 이루어진 이분 그래프를 통해 엔드-투-엔드 모델을 제시한다.

ABSTRACT

Understanding a visual scene goes beyond recognizing individual objects in isolation. Relationships between objects also constitute rich semantic information about the scene. In this work, we explicitly model the objects and their relationships using scene graphs, a visually-grounded graphical structure of an image. We propose a novel end-to-end model that generates such structured scene representation from an input image. The model solves the scene graph inference problem using standard RNNs and learns to iteratively improves its predictions via message passing. Our joint inference model can take advantage of contextual cues to make better predictions on objects and their relationships. The experiments show that our model significantly outperforms previous methods for generating scene graphs using Visual Genome dataset and inferring support relations with NYU Depth v2 dataset.

연구 동기 및 목표

객체 탐지 이상의 시각적 장면에 대한 구조적 표현의 필요성을 논의하고, 객체와 이들의 관계를 장면 그래프로 명시적으로 모델링한다.
이미지에서 객체 범주, 경계 상자 및 쌍별 관계를 함께 추론하는 엔드-투-엔드 신경망 모델을 제안한다.
다양한 문맥 신호를 도입하고 반복적으로 예측을 다듬기 위해 이분 그래프에서의 반복적 메시지 패싱을 활용한다.
새로운 Visual Genome 기반의 장면 그래프 데이터셋과 hỗ NYU Depth v2에서의 지원 관계 추론에 대한 접근 방식을 시연한다.

제안 방법

입력 이미지에서 Region Proposal Network(RPN)으로 객체 제안을 추출한다.
각 객체 제안을 노드 GRU로, 각 객체 쌍을 간선 GRU로 표현하며 그래프 전반에 걸쳐 매개변수를 공유한다.
적응적이고 학습된 메시지 풀링을 사용해 노드와 간선 간의 메시지를 생성하고 반복적인 GRU 업데이트를 수행한다.
노드-GRU와 간선-GRU 간의 메시지를 효율적으로 전달하기 위해 프라이멀-듀얼 이분 그래프 구조를 교대 반복으로 활용한다.
수 차례의 반복 후 최종 객체 클래스, 경계 상자 정정, 관계 술어를 예측한다.
분류 과제에는 교차 엔트로피 손실 및 경계 상자 오프셋에는 L1 손실을 사용하고, 완전 연결 계층과 GRU만 미세 조정하며 VGG-16 특징은 FC 계층 이외에 고정한다.

실험 결과

연구 질문

RQ1이미지에서 시각적으로 근거를 둔 장면 그래프를 직접적으로 엔드-투-엔드 모델로 생성할 수 있는가?
RQ2이분 장면 그래프를 통한 반복적 메시지 전달이 요소별 또는 비반복 기초 모델에 비해 객체 및 관계 예측을 개선하는가?
RQ3학습된 적응형 메시지 풀링이 그래프 전반의 정보 융합에 어떤 영향을 미치는가?
RQ4모델이 indoors 환경에서의 지지 관계와 같은 촘촘하고 공간적인 관계로 일반화될 수 있는 정도는 어느 정도인가?

주요 결과

모델	PredCls R@50	PredCls R@100	SGCls R@50	SGCls R@100	SGGen R@50	SGGen R@100
[26]	27.88	35.04	11.79	14.11	0.32	0.47
avg. pool	32.39	39.63	15.65	18.27	2.70	3.42
max pool	34.33	41.99	16.31	18.70	3.03	3.71
final	44.75	53.08	21.72	24.38	3.44	4.24

학습된 가중 메시지 풀링을 이용한 최종 모델이 Visual Genome의 PredCls, SGCls 및 SGGen 작업에서 강력한 기초모델을 능가한다( PredCls R@100: 53.08 대 41.99; SGCls R@100: 24.38 대 18.70; SGGen R@100: 4.24 대 3.71).
메시지 전달을 두 차례 수행하면 술어 분류 성능이 최적화되며, 추가 반복은 노이즈 메시지를 도입해 결과를 저하시킬 수 있다.
컨텍스트 정보와 적응형 메시지 집계 덕분에 자주 등장하는 술어와 덜 자주 등장하는 술어 모두에서 기저선보다 뚜렷한 이점을 얻으며(다양한 술어에 대한 recall@5가 향상된 것을 통해 확인)
NYU Depth v2에서 RGB 이미지로의 지원 관계 예측에 대한 최신 성능을 달성(타입 인식: 89.0% 대 82.1%의 최고 이전치; 타입 무관: 91.2% 대 88.4%의 최고 이전치)
Visual Genome 기반 결과는 이미지당 평균 25개의 객체와 22개의 관계를 갖는 정제된 데이터셋을 포함해 장면 그래프 생성 과제의 견고한 평가를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.