Skip to main content
QUICK REVIEW

[논문 리뷰] See, Hear, and Read: Deep Aligned Representations

Yusuf Aytar, Carl Vondrick|arXiv (Cornell University)|2017. 06. 03.
Multimodal Machine Learning Applications참고 문헌 41인용 수 68
한 줄 요약

본 논문은 대규모 동기화 데이터를 사용하여 비전, 소리, 언어 간에 공유되고 정렬된 표현을 학습하는 딥 크로스-모달 네트워크를 훈련시켜, 학습 중 이미지-사운드-텍스트 쌍을 필요로 하지 않더라도 모달 간 검색과 전이가 가능하도록 한다.

ABSTRACT

We capitalize on large amounts of readily-available, synchronous data to learn a deep discriminative representations shared across three major natural modalities: vision, sound and language. By leveraging over a year of sound from video and millions of sentences paired with images, we jointly train a deep convolutional network for aligned representation learning. Our experiments suggest that this representation is useful for several tasks, such as cross-modal retrieval or transferring classifiers between modalities. Moreover, although our network is only trained with image+text and image+sound pairs, it can transfer between text and sound as well, a transfer the network never observed during training. Visualizations of our representation reveal many hidden units which automatically emerge to detect concepts, independent of the modality.

연구 동기 및 목표

  • 대규모 동기화 데이터를 활용하여 비전, 소리, 언어 간에 공유되는 표현을 학습한다.
  • 이미지, 소리, 문장을 위한 공통 표현을 생성하는 딥 네트워크를 개발한다.
  • 크로스모달 검색, 분류 전이, 그리고 모달리티에 독립적인 개념의 등장(demonstration)을 보여준다.
  • 직접 학습 쌍이 없더라도 정렬이 모달리티 간에 전이될 수 있음을 보여준다(예: 텍스트와 소리).

제안 방법

  • modality별 초기 계층과 공통 상위 계층을 가진 세 가지 분기 크로모달 합성곱 신경망을 제안한다.
  • 두 가지 정렬 손실을 사용한다: 모델 전달 손실은 학생 모달리티가 공유 상위 가중치를 가진 교사 이미지 모델의 클래스 확률을 예측하는 경우이며, 공유 공간에서 매칭된 쌍의 근접성과 일치하지 않는 쌍의 분리를 보장하는 순위 손실.
  • 입력은 스펙트로그램(소리), word2vec으로 임베딩된 문장(텍스트), 그리고 이미지를 각각의 CNN으로 처리하고 1000차원 소프트맥스 공유 표현으로 전달한다.
  • 이미지+소리 및 이미지+텍스트 쌍으로 학습하며, 이미지를 다리로 삼아 텍스트-소리 정렬을 가능하게 한다; 교차 모달 검색 및 분류기 전이를 평가한다.
  • 공유 계층의 은닉 유닛을 시각화하여 모달리티에 독립적인 고수준 개념 검출기가 등장하는지 보여준다.

실험 결과

연구 질문

  • RQ1비전, 소리, 언어에서 대규모 동기화 데이터로부터 정렬되고 구분 가능한 표현을 학습할 수 있는가?
  • RQ2학습된 표현이 이미지-텍스트를 넘어서 이미지-소리 및 소리-텍스트 전이를 포함한 효과적인 교차 모달 검색을 가능하게 하는가?
  • RQ3목표 모달리티 라벨 없이도 정렬된 표현을 사용하여 한 모달리티에서 학습된 분류기가 다른 모달리티로 전이되는가?
  • RQ4내부 유닛이 모달리티와 무관하게 개념을 탐지하는가?

주요 결과

  • 크로스-모달 검색은 비전-소리-텍스트 작업에서 베이스라인보다 크게 우수하며, 여러 모달리티 쌍에서 선형 회귀 및 CCA 대비 정렬이 개선된다.
  • 공유 표현을 통한 소리-텍스트 검색은 클러스터 CCA와 선형 회귀 같은 베이스라인 대비 크게 앞선다.
  • 모달리티 간의 분류기 전이는 교차 모달 설정에서 최대 10%의 정확도 향상을 달성한다.
  • 학습 중에 소리-텍스트 쌍이 존재하지 않아도 비전과 텍스트에서 사운드로의 전이 및 그 반대가 가능하다.
  • 공유 계층의 은닉 유닛은 고수준의 개념을 자동으로 탐지하며 종종 모달리티에 독립적으로 반응한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.