QUICK REVIEW

[논문 리뷰] Pixels to Graphs by Associative Embedding

Alejandro Newell, Jia Deng|arXiv (Cornell University)|2017. 06. 22.

Multimodal Machine Learning Applications참고 문헌 23인용 수 100

한 줄 요약

이 논문은 연산 단계 단일-stage 엔드-투-엔드 CNN을 제시하여 픽셀에서 직접 연관 임베딩을 사용해 완전한 씬 그래프를 예측하고, Visual Genome에서 외부 제안 시스템에 의존하지 않으면서 최첨단 성능을 달성합니다.

ABSTRACT

Graphs are a useful abstraction of image content. Not only can graphs represent details about individual objects in a scene but they can capture the interactions between pairs of objects. We present a method for training a convolutional neural network such that it takes in an input image and produces a full graph definition. This is done end-to-end in a single stage with the use of associative embeddings. The network learns to simultaneously identify all of the elements that make up a graph and piece them together. We benchmark on the Visual Genome dataset, and demonstrate state-of-the-art performance on the challenging task of scene graph generation.

연구 동기 및 목표

이미지에서 엔드-투-엔드 그래프 예측을 동기로 삼아 씬 그래프에서 객체와 이들 관계를 포착합니다.
사전에 정의된 슬롯 없이 그래프 정점(객체)과 간선(관계)을 연결하는 수단으로 연관 임베딩을 도입합니다.
픽셀 공간에 기초한 비정렬 및 중첩 탐지에 대한 학습 스킴을 개발합니다.
Visual Genome에서 벤치마크하고 이전 연구에 비해 큰 개선을 보여줍니다.

제안 방법

그래프 요소(정점과 간선)를 고해상도 CNN 출력의 매 픽셀 위치에서 고정(히트맵 형태의 정점/간선)으로 매핑합니다.
픽셀 특징에서 완전 연결 계층을 통해 정점/간성 속성(클래스, 바운딩 박스, 관계 유형)을 예측합니다.
각 정점이 고유 임베딩을 가지는 연관 임베딩을 사용하고, 간선은 소스/타깃 임베딩을 참조하여 그래프를 형성합니다.
같은 정점의 임베딩을 함께 모으고 다른 정점은 멀리 떨어지도록 하는 풀-푸시 임베딩 손실을 사용하여 임베딩을 학습하며, 마진 m=8, 임베딩 차원 d=8을 사용합니다.
이미지 내 같은 픽셀 위치에서 중첩된 탐지를 다루기 위해 픽셀당 다수 슬롯을 사용하고, 학습 중에 Hungarian 매칭 단계를 통해 ground-truth 요소를 슬롯에 배정합니다.
간선을 해당 정점 임베딩에 매칭시켜 최종 그래프를 구성하여 요소들을 연결합니다.]
}

실험 결과

연구 질문

RQ1CNN이 영역 제안 없이도 이미지에서(objects 및 그 관계를 포함하는) 전체 씬 그래프를 직접 예측할 수 있는가?
RQ2연관 임베딩을 사용하여 비정렬 출력 설정에서 그래프 요소(정점과 간선)를 참조하고 연결하는 방법은 무엇인가?
RQ3학습 및 추론 중에 동일 픽셀 위치에 grounded된 다수의 그래프 요소를 어떻게 처리하는가?
RQ4Visual Genome에서 씬 그래프 생성의 성능 향상은 어느 정도인가?

주요 결과

설정	R@50	R@100	R@50	R@100	R@50	R@100	R@50	R@100
Lu et al.	–	–	0.3	0.5	11.8	14.1	27.9	35.0
Xu et al.	–	–	3.4	4.2	21.7	24.4	44.8	53.0
Our model	6.7	7.8	9.7	11.3	26.5	30.0	68.0	75.2
Our model (03/2018)	15.5	18.8	–	–	35.7	38.4	82.0	86.4

Visual Genome 씬 그래프 생성에서 SGGen, SGCls, PredCls 작업 전반에 걸쳐 최첨단 성능을 달성합니다.
RPN 없이도 모델이 Competitive Recall@K 점수를 보이며 원시 이미지로부터의 엔드-투-엔드 그래프 예측이 효과적임을 보여줍니다.
연관 임베딩과 비정렬 출력 슬롯을 가진 모델이 Visual Genome 벤치마크에서 이전 접근법보다 크게 우수합니다.
효율적인 코드로 더 긴 학습을 수행하면 업데이트된 이득이 나타납니다(예: 2018-03 결과가 설정 전반에 걸쳐 상당한 개선을 보임).
이 접근은 술어 분포의 편향을 드러내고 슬롯이 술어 서브세트(예: behind, has, in, of, on)에 의해 어떻게 조직되는지 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.