Skip to main content
QUICK REVIEW

[논문 리뷰] DICNet: Deep Instance-Level Contrastive Network for Double Incomplete Multi-View Multi-Label Classification

Chengliang Liu, Jie Wen|arXiv (Cornell University)|2023. 03. 15.
Text and Document Classification Technologies인용 수 8
한 줄 요약

DICNet은 뷰별 고수준 표현 학습, 인스턴스 수준 대조 학습으로 뷰 간 합의를 강화하고, 누락 데이터 인지로 뷰를 융합하는 이중 불완전 다중 뷰 다중 레이블 분류를 다루는 심층 신경망이다.

ABSTRACT

In recent years, multi-view multi-label learning has aroused extensive research enthusiasm. However, multi-view multi-label data in the real world is commonly incomplete due to the uncertain factors of data collection and manual annotation, which means that not only multi-view features are often missing, and label completeness is also difficult to be satisfied. To deal with the double incomplete multi-view multi-label classification problem, we propose a deep instance-level contrastive network, namely DICNet. Different from conventional methods, our DICNet focuses on leveraging deep neural network to exploit the high-level semantic representations of samples rather than shallow-level features. First, we utilize the stacked autoencoders to build an end-to-end multi-view feature extraction framework to learn the view-specific representations of samples. Furthermore, in order to improve the consensus representation ability, we introduce an incomplete instance-level contrastive learning scheme to guide the encoders to better extract the consensus information of multiple views and use a multi-view weighted fusion module to enhance the discrimination of semantic features. Overall, our DICNet is adept in capturing consistent discriminative representations of multi-view multi-label data and avoiding the negative effects of missing views and missing labels. Extensive experiments performed on five datasets validate that our method outperforms other state-of-the-art methods.

연구 동기 및 목표

  • 두 뷰와 레이블이 모두 누락될 수 있는 이중 불완전 다중 뷰 다중 레이블 분류를 동기화하고 해결한다.
  • 각 뷰별 autoencoder를 통해 고수준 의미 특성을 학습하는 심층 아키텍처를 개발한다.
  • cross-view 합의를 촉진하기 위해 불완전한 인스턴스 수준 대조 학습을 도입한다.
  • 사용 가능한 뷰를 강건하게 활용하는 가중 다중 뷰 융합 모듈을 구현한다.
  • 누락된 뷰 및 누락된 레이블 처리를 포함한 엔드투엔드 지도 학습 또는 준지도 학습이 가능하도록 한다.

제안 방법

  • 뷰별 자동인코더를 통한 뷰별 표현 학습으로 고수준 특징을 추출하고 입력을 재구성하며, 누락 뷰 인식 재구성 손실을 갖춘 재구성 손실을 적용한다.
  • anchor/positive/negative 방식의 누락 뷰 마스킹을 사용하여 서로 다른 뷰 간 동일 샘플을 끌어당기고 서로 다른 샘플을 밀어내는 불완전한 인스턴스 수준 대조 학습을 수행한다.
  • 가용 뷰별 특징을 하나의 샘플 표현으로 집계하는 가중 융합 모듈로 누락 뷰의 영향을 완화한다.
  • 융합 표현에서 작동하는 다중 레이블 분류기와 잘못된 감독을 억제하는 누락된 레이블 지시자를 도입한다.
  • 전반적인 학습 목표는 다중 레이블 분류손실, 인스턴스 수준 대조 손실, 재구성 손실을 결합: L = L_MC + β L_IC + γ L_FR.]
  • research_questions:[

실험 결과

연구 질문

  • RQ1이중 불완전성(뷰 누락 및 레이블 누락)이 MVMLC에서 어떻게 효과적으로 해결될 수 있는가?
  • RQ2인스턴스 수준 대조 학습을 활용하는 엔드 투 엔드 DNN이 불완전한 데이터 하에서 교차 뷰 합의 및 판별력을 향상시킬 수 있는가?
  • RQ3가중 융합 전략이 누락 뷰에 대한 견고성을 개선하면서 변별적 의미 정보를 보존하는가?
  • RQ4제안 손실(분류, 대조, 재구성)이 DIMVMLC 과제의 성능에 미치는 영향은 무엇인가?

주요 결과

DatasetMetriclrMMCMVL-IVMvEL-ILDiMSFiMvWLNAIMLours
Corel5kAP0.2400.2400.2040.1890.2830.3090.381
Corel5k1-HL0.9540.9540.9460.9430.9780.9870.988
Corel5k1-RL0.7620.7560.6380.7090.8650.8780.882
Corel5kAUC0.7630.7620.7150.6630.8680.8810.884
VOC2007AP0.4250.4330.3580.3250.4410.4880.505
VOC20071-HL0.8820.8830.8370.8360.8820.9280.929
VOC20071-RL0.6980.7020.6430.5680.7370.7830.783
VOC2007AUC0.7280.7300.6860.6200.7670.8110.809
ESP GameAP0.1880.1890.1320.1080.2420.2460.297
ESP Game1-HL0.9700.9700.9670.9640.9720.9830.983
ESP Game1-RL0.7770.7780.6830.7220.8070.8180.832
ESP GameAUC0.7830.7840.7340.6740.8130.8240.836
IAPR TC-12AP0.1970.1980.1410.1010.2350.2610.323
IAPR TC-121-HL0.9670.9670.9630.9600.9690.9810.981
IAPR TC-121-RL0.8010.7990.7250.6310.8330.8480.873
IAPR TC-12AUC0.8050.8040.7460.6650.8360.8500.874
MIR FlickrAP0.4410.4490.3750.3230.4950.5510.589
MIR Flickr1-HL0.8390.8390.7780.7750.8400.8820.888
MIR Flickr1-RL0.8020.8080.7710.6410.8060.8440.863
MIR FlickrAUC0.8060.8070.7610.7150.7940.8370.849
  • DICNet은 이중 불완전 조건에서 다섯 개 데이터셋에 대해 다수의 지표에서 최첨단 방법을 능가한다.
  • Corel5k에서 DICNet은 0.381 AP, 0.988 1-HL, 0.882 1-RL, 0.884 AUC를 달성하며 경쟁자보다 우수하다.
  • VOC2007에서 DICNet은 0.505 AP, 0.929 1-HL, 0.783 1-RL, 0.809 AUC를 달성하여 베이스라인을 앞지른다.
  • ESP Game에서 DICNet은 0.297 AP, 0.983 1-HL, 0.832 1-RL, 0.836 AUC를 달성하여 비교대상보다 앞선다.
  • IAPR TC-12에서 DICNet은 0.323 AP, 0.981 1-HL, 0.873 1-RL, 0.874 AUC를 달성하여 경쟁자보다 우수하다.
  • MIR Flickr에서 DICNet은 0.589 AP, 0.888 1-HL, 0.863 1-RL, 0.849 AUC를 달성하며 일관된 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.