[논문 리뷰] Exploring Visual Relationship for Image Captioning
GCN-LSTM를 도입하는 그래프 컨볼루션 네트워크 기반 인코더로, 검출된 객체 간의 의미적 및 공간적 관계를 활용해 이미지 캡션 작성을 개선하고; COCO에서 CIDEr-D 최상위 성능을 달성한다.
It is always well believed that modeling relationships between objects would be helpful for representing and eventually describing an image. Nevertheless, there has not been evidence in support of the idea on image description generation. In this paper, we introduce a new design to explore the connections between objects for image captioning under the umbrella of attention-based encoder-decoder framework. Specifically, we present Graph Convolutional Networks plus Long Short-Term Memory (dubbed as GCN-LSTM) architecture that novelly integrates both semantic and spatial object relationships into image encoder. Technically, we build graphs over the detected objects in an image based on their spatial and semantic connections. The representations of each region proposed on objects are then refined by leveraging graph structure through GCN. With the learnt region-level features, our GCN-LSTM capitalizes on LSTM-based captioning framework with attention mechanism for sentence generation. Extensive experiments are conducted on COCO image captioning dataset, and superior results are reported when comparing to state-of-the-art approaches. More remarkably, GCN-LSTM increases CIDEr-D performance from 120.1% to 128.7% on COCO testing set.
연구 동기 및 목표
- 캡션 작성에서 보다 풍부한 이미지 이해를 위해 객체 간 관계 활용의 필요성을 제시한다.
- 의미적 그래프와 공간 그래프를 통합한 관계 인식 이미지 인코더를 제안한다.
- 그래프 기반 어텐션 디코딩으로 COCO에서 향상된 캡션 성능을 실증한다.
제안 방법
- Faster R-CNN으로 객체를 탐지해 영역 집합 V를 형성한다.
- 탐지된 영역들 위에 방향성 간선과 라벨이 있는 의미적 및 공간 그래프를 구성한다.
- 가로질러 라벨이 붙은 방향성 GCN과 간선별 게이트를 사용해 영역 특징을 정제한다.
- 두 개의 어텐션 기반 LSTM 디코더를 사용해(각 그래프당 하나) 캡션을 생성한다.
- 두 디코더의 단어 확률을 선형 결합해 Late Fusion으로 출력을 융합한다.
실험 결과
연구 질문
- RQ1의미적 and 공간 관계가 객체들 간에 존재하는지로 이미지 캡션이 더 향상되는지? (영문 원문과의 직역은 가급적 피하고 자연스러운 한국어로 표현)
- RQ2관계 그래프 위의 GCN이 캡션 생성을 위한 더 정보가 풍부한 영역 표현을 만들어낼 수 있는가?
- RQ3의미적 및 공간 관계 신호의 융합이 캡션 품질에 어떤 영향을 미치는가?
주요 결과
| 모델 | B@1 | B@4 | M | R | C | S |
|---|---|---|---|---|---|---|
| GCN-LSTM (Cross-Entropy) | 77.4 | 37.1 | 28.1 | 57.2 | 117.1 | 21.1 |
| GCN-LSTM (CIDEr-D Optimized) | 80.9 | 38.3 | 28.6 | 58.5 | 128.7 | 22.1 |
- GCN-LSTM 변형은 COCO에서 다수의 지표에 대해 기본 모델(LSTM, Up-Down, SCST, ADP-ATT)보다 우수한 성능을 보인다.
- CIDEr-D 최적화를 통해 GCN-LSTM은 128.7 CIDEr-D와 22.1 SPICE를 달성하며, 이전 최고 방법보다 상당한 여유로 앞선다.
- 의미적 그래프와 공간 그래프를 모두 사용하는 Late Fusion은 단일 그래프 변형에 비해 추가 이득을 가져온다.
- COCO 온라인 테스트에서 GCN-LSTM은 c5 및 c40 참조에서 최고 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.