[논문 리뷰] Pixels to Graphs by Associative Embedding
이 논문은 연산 단계 단일-stage 엔드-투-엔드 CNN을 제시하여 픽셀에서 직접 연관 임베딩을 사용해 완전한 씬 그래프를 예측하고, Visual Genome에서 외부 제안 시스템에 의존하지 않으면서 최첨단 성능을 달성합니다.
Graphs are a useful abstraction of image content. Not only can graphs represent details about individual objects in a scene but they can capture the interactions between pairs of objects. We present a method for training a convolutional neural network such that it takes in an input image and produces a full graph definition. This is done end-to-end in a single stage with the use of associative embeddings. The network learns to simultaneously identify all of the elements that make up a graph and piece them together. We benchmark on the Visual Genome dataset, and demonstrate state-of-the-art performance on the challenging task of scene graph generation.
연구 동기 및 목표
- 이미지에서 엔드-투-엔드 그래프 예측을 동기로 삼아 씬 그래프에서 객체와 이들 관계를 포착합니다.
- 사전에 정의된 슬롯 없이 그래프 정점(객체)과 간선(관계)을 연결하는 수단으로 연관 임베딩을 도입합니다.
- 픽셀 공간에 기초한 비정렬 및 중첩 탐지에 대한 학습 스킴을 개발합니다.
- Visual Genome에서 벤치마크하고 이전 연구에 비해 큰 개선을 보여줍니다.
제안 방법
- 그래프 요소(정점과 간선)를 고해상도 CNN 출력의 매 픽셀 위치에서 고정(히트맵 형태의 정점/간선)으로 매핑합니다.
- 픽셀 특징에서 완전 연결 계층을 통해 정점/간성 속성(클래스, 바운딩 박스, 관계 유형)을 예측합니다.
- 각 정점이 고유 임베딩을 가지는 연관 임베딩을 사용하고, 간선은 소스/타깃 임베딩을 참조하여 그래프를 형성합니다.
- 같은 정점의 임베딩을 함께 모으고 다른 정점은 멀리 떨어지도록 하는 풀-푸시 임베딩 손실을 사용하여 임베딩을 학습하며, 마진 m=8, 임베딩 차원 d=8을 사용합니다.
- 이미지 내 같은 픽셀 위치에서 중첩된 탐지를 다루기 위해 픽셀당 다수 슬롯을 사용하고, 학습 중에 Hungarian 매칭 단계를 통해 ground-truth 요소를 슬롯에 배정합니다.
- 간선을 해당 정점 임베딩에 매칭시켜 최종 그래프를 구성하여 요소들을 연결합니다.]
- }
실험 결과
연구 질문
- RQ1CNN이 영역 제안 없이도 이미지에서(objects 및 그 관계를 포함하는) 전체 씬 그래프를 직접 예측할 수 있는가?
- RQ2연관 임베딩을 사용하여 비정렬 출력 설정에서 그래프 요소(정점과 간선)를 참조하고 연결하는 방법은 무엇인가?
- RQ3학습 및 추론 중에 동일 픽셀 위치에 grounded된 다수의 그래프 요소를 어떻게 처리하는가?
- RQ4Visual Genome에서 씬 그래프 생성의 성능 향상은 어느 정도인가?
주요 결과
| 설정 | R@50 | R@100 | R@50 | R@100 | R@50 | R@100 | R@50 | R@100 |
|---|---|---|---|---|---|---|---|---|
| Lu et al. | – | – | 0.3 | 0.5 | 11.8 | 14.1 | 27.9 | 35.0 |
| Xu et al. | – | – | 3.4 | 4.2 | 21.7 | 24.4 | 44.8 | 53.0 |
| Our model | 6.7 | 7.8 | 9.7 | 11.3 | 26.5 | 30.0 | 68.0 | 75.2 |
| Our model (03/2018) | 15.5 | 18.8 | – | – | 35.7 | 38.4 | 82.0 | 86.4 |
- Visual Genome 씬 그래프 생성에서 SGGen, SGCls, PredCls 작업 전반에 걸쳐 최첨단 성능을 달성합니다.
- RPN 없이도 모델이 Competitive Recall@K 점수를 보이며 원시 이미지로부터의 엔드-투-엔드 그래프 예측이 효과적임을 보여줍니다.
- 연관 임베딩과 비정렬 출력 슬롯을 가진 모델이 Visual Genome 벤치마크에서 이전 접근법보다 크게 우수합니다.
- 효율적인 코드로 더 긴 학습을 수행하면 업데이트된 이득이 나타납니다(예: 2018-03 결과가 설정 전반에 걸쳐 상당한 개선을 보임).
- 이 접근은 술어 분포의 편향을 드러내고 슬롯이 술어 서브세트(예: behind, has, in, of, on)에 의해 어떻게 조직되는지 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.