QUICK REVIEW

[논문 리뷰] See, Hear, and Read: Deep Aligned Representations

Yusuf Aytar, Carl Vondrick|arXiv (Cornell University)|2017. 06. 03.

Multimodal Machine Learning Applications참고 문헌 41인용 수 68

한 줄 요약

본 논문은 대규모 동기화 데이터를 사용하여 비전, 소리, 언어 간에 공유되고 정렬된 표현을 학습하는 딥 크로스-모달 네트워크를 훈련시켜, 학습 중 이미지-사운드-텍스트 쌍을 필요로 하지 않더라도 모달 간 검색과 전이가 가능하도록 한다.

ABSTRACT

We capitalize on large amounts of readily-available, synchronous data to learn a deep discriminative representations shared across three major natural modalities: vision, sound and language. By leveraging over a year of sound from video and millions of sentences paired with images, we jointly train a deep convolutional network for aligned representation learning. Our experiments suggest that this representation is useful for several tasks, such as cross-modal retrieval or transferring classifiers between modalities. Moreover, although our network is only trained with image+text and image+sound pairs, it can transfer between text and sound as well, a transfer the network never observed during training. Visualizations of our representation reveal many hidden units which automatically emerge to detect concepts, independent of the modality.

연구 동기 및 목표

대규모 동기화 데이터를 활용하여 비전, 소리, 언어 간에 공유되는 표현을 학습한다.
이미지, 소리, 문장을 위한 공통 표현을 생성하는 딥 네트워크를 개발한다.
크로스모달 검색, 분류 전이, 그리고 모달리티에 독립적인 개념의 등장(demonstration)을 보여준다.
직접 학습 쌍이 없더라도 정렬이 모달리티 간에 전이될 수 있음을 보여준다(예: 텍스트와 소리).

제안 방법

modality별 초기 계층과 공통 상위 계층을 가진 세 가지 분기 크로모달 합성곱 신경망을 제안한다.
두 가지 정렬 손실을 사용한다: 모델 전달 손실은 학생 모달리티가 공유 상위 가중치를 가진 교사 이미지 모델의 클래스 확률을 예측하는 경우이며, 공유 공간에서 매칭된 쌍의 근접성과 일치하지 않는 쌍의 분리를 보장하는 순위 손실.
입력은 스펙트로그램(소리), word2vec으로 임베딩된 문장(텍스트), 그리고 이미지를 각각의 CNN으로 처리하고 1000차원 소프트맥스 공유 표현으로 전달한다.
이미지+소리 및 이미지+텍스트 쌍으로 학습하며, 이미지를 다리로 삼아 텍스트-소리 정렬을 가능하게 한다; 교차 모달 검색 및 분류기 전이를 평가한다.
공유 계층의 은닉 유닛을 시각화하여 모달리티에 독립적인 고수준 개념 검출기가 등장하는지 보여준다.

실험 결과

연구 질문

RQ1비전, 소리, 언어에서 대규모 동기화 데이터로부터 정렬되고 구분 가능한 표현을 학습할 수 있는가?
RQ2학습된 표현이 이미지-텍스트를 넘어서 이미지-소리 및 소리-텍스트 전이를 포함한 효과적인 교차 모달 검색을 가능하게 하는가?
RQ3목표 모달리티 라벨 없이도 정렬된 표현을 사용하여 한 모달리티에서 학습된 분류기가 다른 모달리티로 전이되는가?
RQ4내부 유닛이 모달리티와 무관하게 개념을 탐지하는가?

주요 결과

크로스-모달 검색은 비전-소리-텍스트 작업에서 베이스라인보다 크게 우수하며, 여러 모달리티 쌍에서 선형 회귀 및 CCA 대비 정렬이 개선된다.
공유 표현을 통한 소리-텍스트 검색은 클러스터 CCA와 선형 회귀 같은 베이스라인 대비 크게 앞선다.
모달리티 간의 분류기 전이는 교차 모달 설정에서 최대 10%의 정확도 향상을 달성한다.
학습 중에 소리-텍스트 쌍이 존재하지 않아도 비전과 텍스트에서 사운드로의 전이 및 그 반대가 가능하다.
공유 계층의 은닉 유닛은 고수준의 개념을 자동으로 탐지하며 종종 모달리티에 독립적으로 반응한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.