QUICK REVIEW

[논문 리뷰] Learn to Combine Modalities in Multimodal Deep Learning

Kuan Liu, Yanen Li|arXiv (Cornell University)|2018. 05. 29.

Speech and Audio Processing참고 문헌 30인용 수 131

한 줄 요약

곱셈식 다중모달 융합과 모달리티 혼합 기법을 도입하여 샘플별로 약한 모달리티의 가중치를 자동으로 낮추고, 다양한 작업에서 강인한 다중모달 분류를 향상시킵니다. 모달리티 혼합을 확장하여 교차 모달 상관관계를 포착하고, 세 가지 실제 데이터셋에서 성능을 향상시킵니다.

ABSTRACT

Combining complementary information from multiple modalities is intuitively appealing for improving the performance of learning-based approaches. However, it is challenging to fully leverage different modalities due to practical challenges such as varying levels of noise and conflicts between modalities. Existing methods do not adopt a joint approach to capturing synergies between the modalities while simultaneously filtering noise and resolving conflicts on a per sample basis. In this work we propose a novel deep neural network based technique that multiplicatively combines information from different source modalities. Thus the model training process automatically focuses on information from more reliable modalities while reducing emphasis on the less reliable modalities. Furthermore, we propose an extension that multiplicatively combines not only the single-source modalities, but a set of mixtured source modalities to better capture cross-modal signal correlations. We demonstrate the effectiveness of our proposed technique by presenting empirical results on three multimodal classification tasks from different domains. The results show consistent accuracy improvements on all three tasks.

연구 동기 및 목표

샘플별로 모달리티의 신뢰도가 다르거나 잡음이 포함될 때 강력한 다중모달 학습의 필요성을 제시한다.
강한 모달리티에 의한 의존을 학습 및 테스트 중에 down-weight하는 곱셈 융합 메커니즘을 제안한다.
교차 모달 상호작용을 모델링하고 모델 용량을 증가시키기 위해 모달리티 혼합으로 확장한다.
다양한 데이터셋에서 가법 및 표준 융합 방법보다 우수한 성능을 보이는 엔드투엔드 학습 가능한 아키텍처를 제공한다.

제안 방법

각 모달리티를 해당 클래스에 대해 p_i를 출력하는 모달리티 특화 예측기로 표현한다.
다음과 같은 하향가중 인자 q_i = [∏_{j≠i}(1 - p_j)]^{β/(M-1)} 를 도입하여 모달리티 손실을 공동으로 조절한다.
곱셈적 학습 목표 L_mul = -∑_i q_i log p_i 를 정의하여 강한 모달리티에 의한 의존을 촉진하고 약한 모달리티를 억제한다.
사례가 어려운 예시에 초점을 맞추는 여유 마진 기반 손실을 가진 향상된 곱셈 학습 변형을 제공한다 (L = ℓ^y (1 - ∏_{ŷ≠y} 1(ℓ_mul^y + δ < ℓ_mul^{ŷ}))).
모달리티 혼합을 확장하여 비어 있지 않은 모든 모달리티 부분집합을 생성하고 각 혼합에 대한 가법 표현을 계산한 다음, 혼합 기반 예측에 대해 동일한 곱셈 선택을 적용한다( p_c 와 ℓ^y 에 대한 방정식 포함 ).
가법적 혼합과 곱셈적 선택을 결합하면 교차 모달 시너지 효과를 포착하는 동시에 과적합을 억제한다는 점을 주장한다.

실험 결과

연구 질문

RQ1곱셈적 융합 방식이 샘플별로 약한 모달리티의 정보를 자동으로 억제하여 정확도를 향상시킬 수 있는가?
RQ2모달리티 혼합과 곱셈적 선택 메커니즘을 도입하면 순수 가법 또는 단일 모달리티 접근법보다 교차 모달 상관관계를 더 잘 포착하는가?
RQ3노이즈가 있거나 충돌하는 모달리티를 가진 다양한 도메인(이미지 인식, 물리 과정 분류, 사용자 프로파일링)에서 이 방법들은 어떤 성능을 보이는가?
RQ4제안된 곱셈 및 혼합 프레임워크 하에서 엔드투엔드 학습이 모달리티 전반의 구성요소를 효과적으로 최적화할 수 있는가?

주요 결과

곱셈적 융합은 작업과 아키텍처에 걸쳐 단일 모달리티 및 가법 융합에 비해 일관되게 분류 정확도를 향상시킨다.
모달리티 혼합(MulMix)과 이를 강화한 변형(MulMix*)은 교차 모달 상관관계를 활용하면서 과적합을 완화해 추가적인 정확도 향상을 제공한다.
이 방법들은 CIFAR-100의 ResNet 변형, Higgs 데이터셋, Snapchat 성별 예측 작업에서 주목할 만한 향상을 달성하여 기초 가법 및 일부 기존 다중모달 방법을 능가한다.
다른 모달리티에서 강한 신호가 제공될 때 약한 모달리티의 기여도를 낮춤으로써 노이즈가 있는 모달리티에 대해 강인성을 보이고, 과적합을 줄이며 일반화를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.