Skip to main content
QUICK REVIEW

[논문 리뷰] Dual-Level Collaborative Transformer for Image Captioning

Yunpeng Luo, Jiayi Ji|arXiv (Cornell University)|2021. 01. 16.
Multimodal Machine Learning Applications참고 문헌 31인용 수 24
한 줄 요약

이 논문은 이미지 캡션 생성을 위해 객체 검출에서 유도된 영역 특징과 컨볼루션 네트워크에서 유도된 격자 특징을 효과적으로 융합하는 이중 수준 협업 트랜스포머(DLCT)를 제안한다. 내부 수준 특징 모델링을 위해 종합적 관계 어텐션을 갖춘 이중 방향 자기 어텐션과, 상하위 수준 융합을 위해 국소성 제약이 가해진 교차 어텐션 및 기하학적 정렬 그래프를 도입함으로써, DLCT는 의미적 노이즈를 감소시키고 특징의 상호 보완성을 향상시켜 카프라 분할 기준 133.8%의 CIDEr 점수와 공식 MS-COCO 테스트 세트 기준 135.4%의 CIDEr 점수를 기록하며 최신 기술 수준을 달성한다.

ABSTRACT

Descriptive region features extracted by object detection networks have played an important role in the recent advancements of image captioning. However, they are still criticized for the lack of contextual information and fine-grained details, which in contrast are the merits of traditional grid features. In this paper, we introduce a novel Dual-Level Collaborative Transformer (DLCT) network to realize the complementary advantages of the two features. Concretely, in DLCT, these two features are first processed by a novelDual-way Self Attenion (DWSA) to mine their intrinsic properties, where a Comprehensive Relation Attention component is also introduced to embed the geometric information. In addition, we propose a Locality-Constrained Cross Attention module to address the semantic noises caused by the direct fusion of these two features, where a geometric alignment graph is constructed to accurately align and reinforce region and grid features. To validate our model, we conduct extensive experiments on the highly competitive MS-COCO dataset, and achieve new state-of-the-art performance on both local and online test sets, i.e., 133.8% CIDEr-D on Karpathy split and 135.4% CIDEr on the official split. Code is available at https://github.com/luo3300612/image-captioning-DLCT.

연구 동기 및 목표

  • 영역 특징이 문맥적 및 세밀한 시각적 세부 정보를 포괄하는 데 한계를 지닌다는 문제를 해결하기 위해.
  • 어텐션 메커니즘에서 영역 특징과 격자 특징을 직접 융합함으로써 발생하는 의미적 노이즈를 극복하기 위해.
  • 기하학적 정렬을 통해 영역 특징과 격자 특징 간의 효과적이고 노이즈 없는 상호작용을 가능하게 하기 위해.
  • 두 유형의 특징이 지닌 상호 보완적 강점을 활용하여 이미지 캡션 생성에서 최신 기술 수준의 성능을 달성하기 위해.
  • 이중 수준 협업을 통해 시각적 표현 학습을 향상시키는 통합 프레임워크를 개발하기 위해.

제안 방법

  • 영역 특징과 격자 특징의 고유한 성질을 각각 모델링하기 위해 이중 방향 자기 어텐션(DWSA)을 도입한다.
  • 각 특징 유형 내에서 절대적 및 상대적 기하학적 관계를 모두 인코딩하기 위해 종합적 관계 어텐션(CRA)을 활용한다.
  • 기하학적 정렬 그래프를 기반으로 한 국소성 제약이 가해진 교차 어텐션(LCCA)을 제안하여 영역 특징과 격자 특징 간의 교차 어텐션을 유도한다.
  • 공간적 근접성과 겹침을 바탕으로 기하학적 정렬 그래프를 구축하여 의미적으로 관련된 특징들만 상호작용하도록 보장한다.
  • 융합된 시각적 표현을 바탕으로 캡션을 생성하기 위해 인코더-디코더 트랜스포머에서 다중 헤드 어텐션을 사용한다.
  • 학습된 위치 인코딩과 기하학적 사전 지식을 적용하여 어텐션 국소화 및 특징 이해도를 향상시킨다.

실험 결과

연구 질문

  • RQ1영역 특징과 격자 특징을 융합하면 단독으로 사용할 경우보다 이미지 캡션 생성 성능을 향상시킬 수 있는가?
  • RQ2기하학적 사전 지식을 어떻게 효과적으로 자기 어텐션 및 교차 어텐션 메커니즘에 통합하여 의미적 노이즈를 줄일 수 있는가?
  • RQ3기하학적 정렬을 통한 구조적 교차 어텐션은 시각적 표현 품질에 어떤 영향을 미치는가?
  • RQ4제안된 이중 수준 협업 전략은 어텐션 기반 이미지 캡션 생성에서 표준 융합 전략을 초월하는가?
  • RQ5통제된 특징 상호작용을 통해 모델은 세밀한 시각적 세부 정보와 문맥적 정보를 더 잘 포착할 수 있는가?

주요 결과

  • DLCT는 카프라 분할 기준 133.8%의 CIDEr 점수와 공식 MS-COCO 테스트 세트 기준 135.4%의 CIDEr 점수를 기록하여 새로운 최신 기술 수준을 수립한다.
  • LCCA 기반 프레임워크에 종합적 관계 어텐션(CRA)을 추가함으로써 CIDEr-D 점수가 133.0%에서 133.8%로 향상된다.
  • LCCA를 제거하면 성능이 132.6% CIDEr로 떨어지며, 이는 LCCA가 노이즈 억제와 특징 향상에 핵심적인 역할을 한다는 것을 입증한다.
  • 완전 이중 그래프를 사용한 교차 어텐션(CBG)은 LCCA보다 열악한 성능(130.8% CIDEr)을 보이며, 비구조적 융합이 해로움을 확인한다.
  • 정성적 분석 결과, DLCT는 '파란'이나 '노란'과 같은 묘사어를 생성할 때 관련된 격자 특징에 주목함을 보이며, 국소화 능력 향상을 시사한다.
  • 시각화 결과, 특히 '트랙'과 같은 복잡한 구조물에 대해 DLCT는 격자 특징에서 더 정확하고 세밀한 어텐션 맵을 생성함을 확인할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.