[논문 리뷰] Parameter Efficient Multimodal Transformers for Video Representation Learning
이 논문은 공격적인 매개변수 공유 및 저랭크 분해를 통해 오디오-비주얼 비디오 표현을 위한 엔드 투 엔드 학습 가능한 멀티모달 트랜스포머를 제시하고, 최대 97% 매개변수 축소를 달성하며 콘텐츠 인식 부정 샘플링 및 융합 전략 분석을 도입한다.
The recent success of Transformers in the language domain has motivated adapting it to a multimodal setting, where a new visual model is trained in tandem with an already pretrained language model. However, due to the excessive memory requirements from Transformers, existing work typically fixes the language model and train only the vision module, which limits its ability to learn cross-modal information in an end-to-end manner. In this work, we focus on reducing the parameters of multimodal Transformers in the context of audio-visual video representation learning. We alleviate the high memory requirement by sharing the parameters of Transformers across layers and modalities; we decompose the Transformer into modality-specific and modality-shared parts so that the model learns the dynamics of each modality both individually and together, and propose a novel parameter sharing scheme based on low-rank approximation. We show that our approach reduces parameters of the Transformers up to 97$\%$, allowing us to train our model end-to-end from scratch. We also propose a negative sampling approach based on an instance similarity measured on the CNN embedding space that our model learns together with the Transformers. To demonstrate our approach, we pretrain our model on 30-second clips (480 frames) from Kinetics-700 and transfer it to audio-visual classification tasks.
연구 동기 및 목표
- 레이블이 없는 비디오로부터 트랜스포머를 사용해 장기적인 오디오-비주얼 표현 학습을 촉진한다.
- 메모리 및 매개변수 요구를 감소시켜 엔드투엔드 학습을 가능하게 한다.
- 트랜스포머 간 및 계층 간 매개변수 공유 스킴을 조사한다.
- 셀프 슈퍼바이즈드 교차 모달 학습을 개선하기 위한 효과적인 음의 샘플링을 제안한다.
- 융합 전략을 평가하고 짧은 비디오 및 긴 비디오로의 다운스트림 태스크 전이 성능을 입증한다.
제안 방법
- 세 부분으로 이루어진 모델: 단기 특징을 위한 시각/음성 CNN, 장기 맥락을 위한 단일 모달 트랜스포머, 교차 모달 맥락을 위한 다중모달 트랜스포머.
- 모달리티 간 및 계층 간에 공유된 저랭크 트랜스포머 가중치를 통해 매개변수 축소를 달성하며, W=UΣVᵀ로 분해하고 공유된 U와 개별 ΣVᵀ를 사용한다.
- 단일 모달 스트림에서 시간 순서를 보존하기 위한 위치 기반 BOS 토큰과 시간 임베딩.
- 교차 모달 융합을 가능하게 하기 위한 다중 모달 트랜스포머의 모달리티 공유 및 시간 공유 임베딩.
- InfoNCE를 이용한 마스킹 임베딩 예측(MEP) 및 교차 모달 일치성에 대한 올바른 쌍 예측(CPP)이라는 두 가지 과제로 셀프 슈퍼바이즈드 프리트레이닝.
- 미니배치 내 CNN 임베딩 유사도에 근거해 음수를 선택하는 콘텐츠-인식 부정 샘플링(CANS).
실험 결과
연구 질문
- RQ1매개변수 효율적인 트랜스포머 아키텍처가 처음부터 엔드투엔드 오디오-비주얼 비디오 표현을 학습할 수 있는가?
- RQ2교차 모달 융합 전략이 다중모달 표현 학습 및 다운스트림 성능에 어떤 영향을 미치는가?
- RQ3모달리티 및 계층 간 트랜스포머 가중치 공유가 모델 크기와 정확도에 미치는 영향은 무엇인가?
- RQ4콘텐츠 인식 부정 샘플링이 다중모달 비디오 표현에 대한 셀프 슈퍼바이즈드 학습을 향상시키는가?
- RQ5사전 학습된 다중모달 표현이 짧은 영상과 긴 영상 분류 태스크로 어떻게 전이되는가?
주요 결과
- 부품 공유로 인해 성능 손실 없이 트랜스포머 매개변수를 최대 97% 축소(128M에서 4M으로).
- 중간 융합은 일관되게 강한 오디오-비주얼 성능과 누락된 모달리티에 대한 강인성을 보인다. 차등 실험에서 중간 융합은 오디오-비주얼 분류에서 top-1 65.7%, top-5 89.9%를 달성했고 특정 설정에서 Early 및 Late 융합보다 우수했다.
- 콘텐츠 인식 부정 샘플링(CANS-Similar)이 MEP를 향상시키고 다중 모달 결과에서 표 1에 대해 top-1 67.5%, top-5 92.3%를 달성한다.
- 계층 간 가중치 공유가 효과적이며, 계층 간 공유가 성능에 해를 주지 않아 더 작고 빠른 모델을 가능하게 한다.
- Kinetics-700 또는 AudioSet에서 Mid 융합과 CANS-Similar로 프리트레이닝은 짧은 및 긴 지속 시간의 오디오-비주얼 결과를 강하게 보이고 여러 데이터세트에서 여러 베이스라인을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.