QUICK REVIEW

[논문 리뷰] Zorro: the masked multimodal transformer

Adrià Recasens, Jason Lin|arXiv (Cornell University)|2023. 01. 23.

Speech and Audio Processing인용 수 11

한 줄 요약

Zorro는 Transformer에서 모달리티-의식 마스킹을 도입하여 하나의 백본 내에서 단일 모드 및 다중 모드 출력을 제공하고, 자기지도 대조 학습(self-supervised contrastive learning) 및 다중 모드 작업과 함께 단일 모드 추론을 가능하게 한다. 이는 단일 모드 평가 능력을 유지하면서 강력한 오디오-비주얼 벤치마크를 달성한다.

ABSTRACT

Attention-based models are appealing for multimodal processing because inputs from multiple modalities can be concatenated and fed to a single backbone network - thus requiring very little fusion engineering. The resulting representations are however fully entangled throughout the network, which may not always be desirable: in learning, contrastive audio-visual self-supervised learning requires independent audio and visual features to operate, otherwise learning collapses; in inference, evaluation of audio-visual models should be possible on benchmarks having just audio or just video. In this paper, we introduce Zorro, a technique that uses masks to control how inputs from each modality are routed inside Transformers, keeping some parts of the representation modality-pure. We apply this technique to three popular transformer-based architectures (ViT, Swin and HiP) and show that with contrastive pre-training Zorro achieves state-of-the-art results on most relevant benchmarks for multimodal tasks (AudioSet and VGGSound). Furthermore, the resulting models are able to perform unimodal inference on both video and audio benchmarks such as Kinetics-400 or ESC-50.

연구 동기 및 목표

일부 모달리티가 없더라도 기능을 유지하는 다중 모달 인식을 자극하며, 인간 지각 유연성에서 영감을 얻는다.
표현을 단일 모드와 융합 스트림으로 분리하기 위해 마스킹을 통해 원하지 않는 교차 모달 얽힘을 방지하는 Transformer 아키텍처를 개발한다.
하나의 모델 내에서 오디오, 비디오 또는 두 가지 모두에서 동작할 수 있도록 감독 학습과 자기지도 대조 학습을 모두 가능하게 한다.
오디오-비주얼 벤치마크에서 최첨단 또는 경쟁력 있는 성능을 입증하고, 단일 모드 벤치마크에서 단일 모드 추론 능력을 보여준다.

제안 방법

표준 Transformer 백본 내에서 unimodal(audio 또는 video)와 fusion의 세 표현 스트림을 생성하기 위해 Zorro 마스킹을 제안한다.
단일 모드 스트림이 다른 모달리티로의 정보 흐름을 차단하도록 모달리티-전용 및 융합 어텐션 마스킹을 적용하여 모달리티-순수한 표현을 보존한다.
아키텍처별 조정을 통해 Zorro를 ViT, Swin, 및 HiP 백본으로 확장한다.
오디오, 비디오, 융합 및 글로벌 표현에 대한 출력을 생성하기 위해 교차 어텐션 기반의 디코딩 쿼리를 사용한다.
보조 프로젝션과 온도 스케일된 Noise-Contrastive Estimation 손실을 통해 unimodal 출력과 융합 출력의 정렬을 유도하는 오디오-비주얼 대조 손실로 사전 학습한다.
감독 학습 중에 네 가지 출력(오디오, 비디오, 융합 및 글로벌)을 학습하고 각 출력에 대한 분류기를 학습시켜 예측을 평균화한다.

실험 결과

연구 질문

RQ1트랜스포머 내부의 마스킹이 자기지도 손실이 붕괴되지 않으면서 교차 모달 융합을 가능하게 하며 단일 모드 표현을 보존할 수 있는가?
RQ2하나의 Zorro 백본이 다중 모달 벤치마크에서 효과적인 자기지도 오디오-비주얼 사전 학습과 경쟁력 있는 감독형 미세 조정을 지원하는가?
RQ3단일 모달에서 다중 모달 백본을 평가할 때 단일 모드 추론이 유지되거나 복구될 수 있는가?
RQ4AudioSet, VGGSound, Kinetics-400, ESC-50에서 Zorro가 기존 다중 모달 아키텍처 대비 얻는 비교적 이점은 무엇인가?
RQ5감독 학습 및 자기지도 설정에서 서로 다른 마스킹 구성은 성능에 어떤 영향을 미치는가?

주요 결과

Zorro는 다중 모달 작업(AudioSet 및 VGGSound)에 대해 여러 자기지도 벤치마크에서 최첨단 성능을 달성한다.
자기지도 사전 학습하에 Zorro는 AudioSet에서 감독형 사전 학습과의 간극을 좁히고, VGGSound와 Kinetics-400에서 경쟁력을 유지한다.
Zorro는 다중 모달 데이터에서 학습되더라도 비디오와 오디오 벤치마크에서 단일 모드 추론을 가능하게 하며, 단일 모드 평가를 지원하지 않는 아키텍처보다 더 우수하다.
비교되는 아키텍처(ViT, Swin, HiP)는 다양한 트레이드오프를 보이며, Zorro-Swin은 처음부터 학습된 기본 설정에서 강한 결과를 달성하고, ViT는 모달리티별 매개변수 공유가 사용될 때 강력한 성능을 제공한다.
마스킹 전략(Zorro)은 모달리티-순수 스트림을 보존하는 데 도움이 되어 표현 붕괴 없이 효과적인 자기지도 학습을 가능하게 하고 융합을 위한 교차 모달 출력을 허용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.