[논문 리뷰] Decoupled Multimodal Distilling for Emotion Recognition
DMD는 멀티모달 특성을 모달리티 무관 공간과 독점적 공간으로 분리하고 이중 그래프 증류 단위를 사용해 언어, 시각, 음성 간 지식을 지능적으로 전달하여 MER에서 MOSI 및 MOSEI에서 최첨단 결과를 달성합니다.
Human multimodal emotion recognition (MER) aims to perceive human emotions via language, visual and acoustic modalities. Despite the impressive performance of previous MER approaches, the inherent multimodal heterogeneities still haunt and the contribution of different modalities varies significantly. In this work, we mitigate this issue by proposing a decoupled multimodal distillation (DMD) approach that facilitates flexible and adaptive crossmodal knowledge distillation, aiming to enhance the discriminative features of each modality. Specially, the representation of each modality is decoupled into two parts, i.e., modality-irrelevant/-exclusive spaces, in a self-regression manner. DMD utilizes a graph distillation unit (GD-Unit) for each decoupled part so that each GD can be performed in a more specialized and effective manner. A GD-Unit consists of a dynamic graph where each vertice represents a modality and each edge indicates a dynamic knowledge distillation. Such GD paradigm provides a flexible knowledge transfer manner where the distillation weights can be automatically learned, thus enabling diverse crossmodal knowledge transfer patterns. Experimental results show DMD consistently obtains superior performance than state-of-the-art MER methods. Visualization results show the graph edges in DMD exhibit meaningful distributional patterns w.r.t. the modality-irrelevant/-exclusive feature spaces. Codes are released at \url{https://github.com/mdswyz/DMD}.
연구 동기 및 목표
- 강한 모달리티 이질성 하에서 강건한 멀티모달 감정 인식(MER)을 동인으로 삼아 고도화합니다.
- 공통(무관) 구성요소와 개인적(독점) 구성요소로 모달리티를 분할하는 디커플링 특성 프레임워크를 제안합니다.
- 적응형 교차 모달 지식 전달을 가능하게 하는 두 개의 그래프 증류 단위(HomoGD와 HeteroGD)를 개발합니다.
- _MARGIN과 직교 제약을 통한 자기 회귀 기반 디커플링으로 분리성을 강화합니다.
- 공개 데이터 세트에서 탁월한 MER 성능을 입증하고 학습된 교차 모달 상호작용의 시각화를 제공합니다.
제안 방법
- 공유 인코더와 모달리티별 인코더를 통해 각 모달리티를 공통 공간(완전 또는 대체로 모달리티-무관)과 개인 공간(모달리티-전용)로 디커플링합니다.
- 결합된 특징을 재구성하기 위해 자기 회귀를 사용하고 재구성 손실과 순환 손실로 디커플링을 강제합니다.
- 동질 특징들 간의 의미 있는 분리를 강조하기 위해 마진 손실을 적용합니다.
- 각 디커플링된 공간 내에서 적응적 교차 모달 지식 증류를 수행하는 그래프 증류 단위(GD-Unit)를 도입합니다.
- HomoGD는 학습된 증류 그래프의 동적 가중치를 사용하여 동질 특징 간의 지식을 증류합니다.
- HeteroGD는 교차 모달 주의를 사용하여 증류 전에 이질 특징을 정렬하고 분포 차이를 줄이는 다중 모달 트랜스포머를 활용합니다.
- 정제된 동질 특징과 강화된 이질 특징을 융합하여 최종 MER 예측에 사용합니다.
- 목표는 작업 손실, 디커플링 손실, 증류 손실을 결합한 합계 손실: L_total = L_task + λ1 L_dec + λ2 L_dtl.
![Figure 1 : (a) illustrates the significant emotion recognition discrepancies using unimodality, adapted from Mult [ 28 ] . (b) shows the conventional cross-modal distillation. (c) shows our proposed decoupled multimodal distillation (DMD) method. DMD consists of two graph distillation (GD) units: ho](https://ar5iv.labs.arxiv.org/html/2303.13802/assets/x1.png)
실험 결과
연구 질문
- RQ1다상(모달리티) 표현을 모달리티-무관 공간과 모달리티-전용 공간으로 디커플링하는 것이 크로스-모달 이질성 하에서 MER 성능을 높일 수 있는가?
- RQ2동적이고 학습된 증류 그래프(HomoGD/HeteroGD)이 고정되거나 순진한 융합 전략보다 더 나은 크로스-모달 지식 전달을 제공하는가?
- RQ3디커플링된 특징이 모달리티 및 감정 간에 어떻게 진화하며, 학습된 그래프 간선은 어떤 패턴을 드러내는가?
- RQ4그래프 증류와 교차 모달 주의가 MER에서 단일 모달 대 다중 모달 융합 효과에 어떤 영향을 주는가?
주요 결과
| Model | Setting | ACC7 (%) | ACC2 (%) | F1 (%) |
|---|---|---|---|---|
| EF-LSTM | Aligned | 33.7 | 75.3 | 75.2 |
| LF-LSTM | Aligned | 35.3 | 76.8 | 76.7 |
| TFN | Aligned | 32.1 | 73.9 | 73.4 |
| LMF | Aligned | 32.8 | 76.4 | 75.7 |
| MFM | Aligned | 36.2 | 78.1 | 78.1 |
| RAVEN | Aligned | 33.2 | 78.0 | 76.6 |
| MCTN | Aligned | 35.6 | 79.3 | 79.1 |
| MulT | Aligned | 40.0 | 83.0 | 82.8 |
| PMR | Aligned | 40.6 | 83.6 | 83.4 |
| MISA | Aligned | 42.3 | 83.4 | 83.6 |
| FDMER | Aligned | 44.1 | 84.6 | 84.7 |
| DMD (Ours) | Aligned | 45.6 | 86.0 | 86.0 |
| EF-LSTM | Unaligned | 31.0 | 73.6 | 74.5 |
| LF-LSTM | Unaligned | 33.7 | 77.6 | 77.8 |
| RAVEN | Unaligned | 31.7 | 72.7 | 73.1 |
| MCTN | Unaligned | 32.7 | 75.9 | 76.4 |
| MulT | Unaligned | 39.1 | 81.1 | 81.0 |
| PMR | Unaligned | 40.6 | 82.4 | 82.1 |
| MICA | Unaligned | 40.8 | 82.6 | 82.7 |
| DMD (Ours) | Unaligned | 41.9 | 83.5 | 83.5 |
- DMD는 정렬된 설정과 비정렬된 설정 모두에서 시그니처-최첨단 방법들과 비교하여 CMU-MOSI 및 CMU-MOSEI에서 우수하거나 경쟁력 있는 정확도를 달성합니다.
- 동질 공간과 이질 공간으로의 디커플링과 그래프 증류를 함께 적용하면 베이스라인 대비 MER 성능이 일관되게 향상됩니다.
- HomoGD는 주로 언어를 강력한 기여자로 활용하며, L→A 및 L→V 간선이 많은 경우 지배적 구성을 반영합니다.
- HeteroGD는 교차 모달 주의로 분포 차이를 메우고 의미 있는 상호작용(예: V→A 이득)을 드러냅니다.
- 특징 디커플링(FD)과 두 GD 단위를 함께 사용할 때 최상의 결과가 나오며 CA 또는 한 GD 단위를 제거하면 성능이 저하됩니다.
- 시각화 결과, 디커플링된 공간은 클래스 분리를 향상시키고, 동질 공간은 감정으로 군집화되며 이질 공간은 모달리티로 군집화됩니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.