[논문 리뷰] DICNet: Deep Instance-Level Contrastive Network for Double Incomplete Multi-View Multi-Label Classification
DICNet은 뷰별 고수준 표현 학습, 인스턴스 수준 대조 학습으로 뷰 간 합의를 강화하고, 누락 데이터 인지로 뷰를 융합하는 이중 불완전 다중 뷰 다중 레이블 분류를 다루는 심층 신경망이다.
In recent years, multi-view multi-label learning has aroused extensive research enthusiasm. However, multi-view multi-label data in the real world is commonly incomplete due to the uncertain factors of data collection and manual annotation, which means that not only multi-view features are often missing, and label completeness is also difficult to be satisfied. To deal with the double incomplete multi-view multi-label classification problem, we propose a deep instance-level contrastive network, namely DICNet. Different from conventional methods, our DICNet focuses on leveraging deep neural network to exploit the high-level semantic representations of samples rather than shallow-level features. First, we utilize the stacked autoencoders to build an end-to-end multi-view feature extraction framework to learn the view-specific representations of samples. Furthermore, in order to improve the consensus representation ability, we introduce an incomplete instance-level contrastive learning scheme to guide the encoders to better extract the consensus information of multiple views and use a multi-view weighted fusion module to enhance the discrimination of semantic features. Overall, our DICNet is adept in capturing consistent discriminative representations of multi-view multi-label data and avoiding the negative effects of missing views and missing labels. Extensive experiments performed on five datasets validate that our method outperforms other state-of-the-art methods.
연구 동기 및 목표
- 두 뷰와 레이블이 모두 누락될 수 있는 이중 불완전 다중 뷰 다중 레이블 분류를 동기화하고 해결한다.
- 각 뷰별 autoencoder를 통해 고수준 의미 특성을 학습하는 심층 아키텍처를 개발한다.
- cross-view 합의를 촉진하기 위해 불완전한 인스턴스 수준 대조 학습을 도입한다.
- 사용 가능한 뷰를 강건하게 활용하는 가중 다중 뷰 융합 모듈을 구현한다.
- 누락된 뷰 및 누락된 레이블 처리를 포함한 엔드투엔드 지도 학습 또는 준지도 학습이 가능하도록 한다.
제안 방법
- 뷰별 자동인코더를 통한 뷰별 표현 학습으로 고수준 특징을 추출하고 입력을 재구성하며, 누락 뷰 인식 재구성 손실을 갖춘 재구성 손실을 적용한다.
- anchor/positive/negative 방식의 누락 뷰 마스킹을 사용하여 서로 다른 뷰 간 동일 샘플을 끌어당기고 서로 다른 샘플을 밀어내는 불완전한 인스턴스 수준 대조 학습을 수행한다.
- 가용 뷰별 특징을 하나의 샘플 표현으로 집계하는 가중 융합 모듈로 누락 뷰의 영향을 완화한다.
- 융합 표현에서 작동하는 다중 레이블 분류기와 잘못된 감독을 억제하는 누락된 레이블 지시자를 도입한다.
- 전반적인 학습 목표는 다중 레이블 분류손실, 인스턴스 수준 대조 손실, 재구성 손실을 결합: L = L_MC + β L_IC + γ L_FR.]
- research_questions:[
실험 결과
연구 질문
- RQ1이중 불완전성(뷰 누락 및 레이블 누락)이 MVMLC에서 어떻게 효과적으로 해결될 수 있는가?
- RQ2인스턴스 수준 대조 학습을 활용하는 엔드 투 엔드 DNN이 불완전한 데이터 하에서 교차 뷰 합의 및 판별력을 향상시킬 수 있는가?
- RQ3가중 융합 전략이 누락 뷰에 대한 견고성을 개선하면서 변별적 의미 정보를 보존하는가?
- RQ4제안 손실(분류, 대조, 재구성)이 DIMVMLC 과제의 성능에 미치는 영향은 무엇인가?
주요 결과
| Dataset | Metric | lrMMC | MVL-IV | MvEL-ILD | iMSF | iMvWL | NAIML | ours |
|---|---|---|---|---|---|---|---|---|
| Corel5k | AP | 0.240 | 0.240 | 0.204 | 0.189 | 0.283 | 0.309 | 0.381 |
| Corel5k | 1-HL | 0.954 | 0.954 | 0.946 | 0.943 | 0.978 | 0.987 | 0.988 |
| Corel5k | 1-RL | 0.762 | 0.756 | 0.638 | 0.709 | 0.865 | 0.878 | 0.882 |
| Corel5k | AUC | 0.763 | 0.762 | 0.715 | 0.663 | 0.868 | 0.881 | 0.884 |
| VOC2007 | AP | 0.425 | 0.433 | 0.358 | 0.325 | 0.441 | 0.488 | 0.505 |
| VOC2007 | 1-HL | 0.882 | 0.883 | 0.837 | 0.836 | 0.882 | 0.928 | 0.929 |
| VOC2007 | 1-RL | 0.698 | 0.702 | 0.643 | 0.568 | 0.737 | 0.783 | 0.783 |
| VOC2007 | AUC | 0.728 | 0.730 | 0.686 | 0.620 | 0.767 | 0.811 | 0.809 |
| ESP Game | AP | 0.188 | 0.189 | 0.132 | 0.108 | 0.242 | 0.246 | 0.297 |
| ESP Game | 1-HL | 0.970 | 0.970 | 0.967 | 0.964 | 0.972 | 0.983 | 0.983 |
| ESP Game | 1-RL | 0.777 | 0.778 | 0.683 | 0.722 | 0.807 | 0.818 | 0.832 |
| ESP Game | AUC | 0.783 | 0.784 | 0.734 | 0.674 | 0.813 | 0.824 | 0.836 |
| IAPR TC-12 | AP | 0.197 | 0.198 | 0.141 | 0.101 | 0.235 | 0.261 | 0.323 |
| IAPR TC-12 | 1-HL | 0.967 | 0.967 | 0.963 | 0.960 | 0.969 | 0.981 | 0.981 |
| IAPR TC-12 | 1-RL | 0.801 | 0.799 | 0.725 | 0.631 | 0.833 | 0.848 | 0.873 |
| IAPR TC-12 | AUC | 0.805 | 0.804 | 0.746 | 0.665 | 0.836 | 0.850 | 0.874 |
| MIR Flickr | AP | 0.441 | 0.449 | 0.375 | 0.323 | 0.495 | 0.551 | 0.589 |
| MIR Flickr | 1-HL | 0.839 | 0.839 | 0.778 | 0.775 | 0.840 | 0.882 | 0.888 |
| MIR Flickr | 1-RL | 0.802 | 0.808 | 0.771 | 0.641 | 0.806 | 0.844 | 0.863 |
| MIR Flickr | AUC | 0.806 | 0.807 | 0.761 | 0.715 | 0.794 | 0.837 | 0.849 |
- DICNet은 이중 불완전 조건에서 다섯 개 데이터셋에 대해 다수의 지표에서 최첨단 방법을 능가한다.
- Corel5k에서 DICNet은 0.381 AP, 0.988 1-HL, 0.882 1-RL, 0.884 AUC를 달성하며 경쟁자보다 우수하다.
- VOC2007에서 DICNet은 0.505 AP, 0.929 1-HL, 0.783 1-RL, 0.809 AUC를 달성하여 베이스라인을 앞지른다.
- ESP Game에서 DICNet은 0.297 AP, 0.983 1-HL, 0.832 1-RL, 0.836 AUC를 달성하여 비교대상보다 앞선다.
- IAPR TC-12에서 DICNet은 0.323 AP, 0.981 1-HL, 0.873 1-RL, 0.874 AUC를 달성하여 경쟁자보다 우수하다.
- MIR Flickr에서 DICNet은 0.589 AP, 0.888 1-HL, 0.863 1-RL, 0.849 AUC를 달성하며 일관된 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.