Skip to main content
QUICK REVIEW

[논문 리뷰] Multimodal Prompting with Missing Modalities for Visual Recognition

Yi-Lun Lee, Yi‐Hsuan Tsai|arXiv (Cornell University)|2023. 03. 06.
Multimodal Machine Learning Applications인용 수 10
한 줄 요약

이 논문은 멀티모달 트랜스포머를 위한 누락 인식 프롬프트를 도입하여 학습 및 테스트 중 다양한 누락 모달리티 시나리오를 처리하면서도 전체 미세조정 없이 강건성을 달성하고 훨씬 적은 학습 가능한 매개변수로 성능을 확보한다.

ABSTRACT

In this paper, we tackle two challenges in multimodal learning for visual recognition: 1) when missing-modality occurs either during training or testing in real-world situations; and 2) when the computation resources are not available to finetune on heavy transformer models. To this end, we propose to utilize prompt learning and mitigate the above two challenges together. Specifically, our modality-missing-aware prompts can be plugged into multimodal transformers to handle general missing-modality cases, while only requiring less than 1% learnable parameters compared to training the entire model. We further explore the effect of different prompt configurations and analyze the robustness to missing modality. Extensive experiments are conducted to show the effectiveness of our prompt learning framework that improves the performance under various missing-modality cases, while alleviating the requirement of heavy model re-training. Code is available.

연구 동기 및 목표

  • 학습 또는 테스트 시 모달리티가 누락될 수 있을 때 강건한 멀티모달 학습을 촉진한다.
  • 대형 멀티모달 트랜스포머의 전체 미세조정을 피함으로써 계산 비용을 줄인다.
  • 특정 누락 모달리티 시나리오에 따라 모델 예측을 조건화하는 프롬프트를 제안한다.
  • 다양한 멀티모달 데이터셋에 걸쳐 입력-레벨 프롬프트와 어텐션-레벨 프롬프트 설계를 평가한다.

제안 방법

  • 누락 모달리티 시나리오를 샘플별 및 단계별(학습/테스트)로 동적으로 정의한다.
  • 백본을 고정한 채로 사전학습된 멀티모달 트랜스포머(ViLT)에 학습 가능한 누락 인식 프롬프트를 부착한다.
  • 두 가지 프롬프트 설계(입력 레벨 프롬프트와 어텐션 레벨 프롬프트)를 탐색하고 선택된 트랜스포머 레이어에 프롬프트를 부착한다.
  • 프롬프트, 풀러, 분류기만 학습시키고 백본은 고정하여 학습 가능한 매개변수를 최소화한다 (<1% of model).
  • 누락된 모달리티에 대해 더미 입력을 사용하고 프롬프트를 결합하거나 경로를 통해 예측을 안내한다.
  • 다양한 누락 비율 설정을 가진 데이터셋에서 성능을 보고하여 강건성과 효율성을 평가한다.

실험 결과

연구 질문

  • RQ1학습 및 테스트 전반에 걸쳐 모달리티가 불완전하게 관찰될 때 누락 인식 프롬프트가 강건한 멀티모달 인식을 가능하게 할 수 있는가?
  • RQ2다양한 누락 모달리티 시나리오에서 입력 레벨 프롬프트 설계와 어텐션 레벨 프롬프트 설계의 효과성과 안정성은 어떻게 비교되는가?
  • RQ3성능과 효율성을 위한 프롬프트 길이, 계층 위치, 프롬프트된 계층 수 간의 트레이드오프는 무엇인가?

주요 결과

  • 어텐션 레벨 프롬프트는 누락 모달리티 시나리오 전반에서 기본 로버스트성을 일관되게 향상시킨다.
  • 입력 레벨 프롬프트가 종종 최상의 성능을 보이지만 데이터셋 특성에 더 민감할 수 있으며, 어텐션 레벨 프롬프트가 더 안정성을 제공한다.
  • 이 방법은 113M-parameter 백본 대비 추가 매개변수가 0.2% 미만(≈221k)에 불과하며 전체 모델 미세조정 없이도 경쟁력 있는 성능을 달성한다.
  • 초기 트랜스포머 층에서 시작하는 프롬프트 계층화는 일반적으로 나중 층만 프롬프트하는 것보다 더 큰 영향을 준다.
  • 모듈리티 누락으로 인한 성능 저하가 완화되며 MM-IMDb, UPMC Food-101, Hateful Memes 데이터셋 전반에서 강건성이 입증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.