QUICK REVIEW

[논문 리뷰] DICNet: Deep Instance-Level Contrastive Network for Double Incomplete Multi-View Multi-Label Classification

Chengliang Liu, Jie Wen|arXiv (Cornell University)|2023. 03. 15.

Text and Document Classification Technologies인용 수 8

한 줄 요약

DICNet은 뷰별 고수준 표현 학습, 인스턴스 수준 대조 학습으로 뷰 간 합의를 강화하고, 누락 데이터 인지로 뷰를 융합하는 이중 불완전 다중 뷰 다중 레이블 분류를 다루는 심층 신경망이다.

ABSTRACT

In recent years, multi-view multi-label learning has aroused extensive research enthusiasm. However, multi-view multi-label data in the real world is commonly incomplete due to the uncertain factors of data collection and manual annotation, which means that not only multi-view features are often missing, and label completeness is also difficult to be satisfied. To deal with the double incomplete multi-view multi-label classification problem, we propose a deep instance-level contrastive network, namely DICNet. Different from conventional methods, our DICNet focuses on leveraging deep neural network to exploit the high-level semantic representations of samples rather than shallow-level features. First, we utilize the stacked autoencoders to build an end-to-end multi-view feature extraction framework to learn the view-specific representations of samples. Furthermore, in order to improve the consensus representation ability, we introduce an incomplete instance-level contrastive learning scheme to guide the encoders to better extract the consensus information of multiple views and use a multi-view weighted fusion module to enhance the discrimination of semantic features. Overall, our DICNet is adept in capturing consistent discriminative representations of multi-view multi-label data and avoiding the negative effects of missing views and missing labels. Extensive experiments performed on five datasets validate that our method outperforms other state-of-the-art methods.

연구 동기 및 목표

두 뷰와 레이블이 모두 누락될 수 있는 이중 불완전 다중 뷰 다중 레이블 분류를 동기화하고 해결한다.
각 뷰별 autoencoder를 통해 고수준 의미 특성을 학습하는 심층 아키텍처를 개발한다.
cross-view 합의를 촉진하기 위해 불완전한 인스턴스 수준 대조 학습을 도입한다.
사용 가능한 뷰를 강건하게 활용하는 가중 다중 뷰 융합 모듈을 구현한다.
누락된 뷰 및 누락된 레이블 처리를 포함한 엔드투엔드 지도 학습 또는 준지도 학습이 가능하도록 한다.

제안 방법

뷰별 자동인코더를 통한 뷰별 표현 학습으로 고수준 특징을 추출하고 입력을 재구성하며, 누락 뷰 인식 재구성 손실을 갖춘 재구성 손실을 적용한다.
anchor/positive/negative 방식의 누락 뷰 마스킹을 사용하여 서로 다른 뷰 간 동일 샘플을 끌어당기고 서로 다른 샘플을 밀어내는 불완전한 인스턴스 수준 대조 학습을 수행한다.
가용 뷰별 특징을 하나의 샘플 표현으로 집계하는 가중 융합 모듈로 누락 뷰의 영향을 완화한다.
융합 표현에서 작동하는 다중 레이블 분류기와 잘못된 감독을 억제하는 누락된 레이블 지시자를 도입한다.
전반적인 학습 목표는 다중 레이블 분류손실, 인스턴스 수준 대조 손실, 재구성 손실을 결합: L = L_MC + β L_IC + γ L_FR.]
research_questions:[

실험 결과

연구 질문

RQ1이중 불완전성(뷰 누락 및 레이블 누락)이 MVMLC에서 어떻게 효과적으로 해결될 수 있는가?
RQ2인스턴스 수준 대조 학습을 활용하는 엔드 투 엔드 DNN이 불완전한 데이터 하에서 교차 뷰 합의 및 판별력을 향상시킬 수 있는가?
RQ3가중 융합 전략이 누락 뷰에 대한 견고성을 개선하면서 변별적 의미 정보를 보존하는가?
RQ4제안 손실(분류, 대조, 재구성)이 DIMVMLC 과제의 성능에 미치는 영향은 무엇인가?

주요 결과

Dataset	Metric	lrMMC	MVL-IV	MvEL-ILD	iMSF	iMvWL	NAIML	ours
Corel5k	AP	0.240	0.240	0.204	0.189	0.283	0.309	0.381
Corel5k	1-HL	0.954	0.954	0.946	0.943	0.978	0.987	0.988
Corel5k	1-RL	0.762	0.756	0.638	0.709	0.865	0.878	0.882
Corel5k	AUC	0.763	0.762	0.715	0.663	0.868	0.881	0.884
VOC2007	AP	0.425	0.433	0.358	0.325	0.441	0.488	0.505
VOC2007	1-HL	0.882	0.883	0.837	0.836	0.882	0.928	0.929
VOC2007	1-RL	0.698	0.702	0.643	0.568	0.737	0.783	0.783
VOC2007	AUC	0.728	0.730	0.686	0.620	0.767	0.811	0.809
ESP Game	AP	0.188	0.189	0.132	0.108	0.242	0.246	0.297
ESP Game	1-HL	0.970	0.970	0.967	0.964	0.972	0.983	0.983
ESP Game	1-RL	0.777	0.778	0.683	0.722	0.807	0.818	0.832
ESP Game	AUC	0.783	0.784	0.734	0.674	0.813	0.824	0.836
IAPR TC-12	AP	0.197	0.198	0.141	0.101	0.235	0.261	0.323
IAPR TC-12	1-HL	0.967	0.967	0.963	0.960	0.969	0.981	0.981
IAPR TC-12	1-RL	0.801	0.799	0.725	0.631	0.833	0.848	0.873
IAPR TC-12	AUC	0.805	0.804	0.746	0.665	0.836	0.850	0.874
MIR Flickr	AP	0.441	0.449	0.375	0.323	0.495	0.551	0.589
MIR Flickr	1-HL	0.839	0.839	0.778	0.775	0.840	0.882	0.888
MIR Flickr	1-RL	0.802	0.808	0.771	0.641	0.806	0.844	0.863
MIR Flickr	AUC	0.806	0.807	0.761	0.715	0.794	0.837	0.849

DICNet은 이중 불완전 조건에서 다섯 개 데이터셋에 대해 다수의 지표에서 최첨단 방법을 능가한다.
Corel5k에서 DICNet은 0.381 AP, 0.988 1-HL, 0.882 1-RL, 0.884 AUC를 달성하며 경쟁자보다 우수하다.
VOC2007에서 DICNet은 0.505 AP, 0.929 1-HL, 0.783 1-RL, 0.809 AUC를 달성하여 베이스라인을 앞지른다.
ESP Game에서 DICNet은 0.297 AP, 0.983 1-HL, 0.832 1-RL, 0.836 AUC를 달성하여 비교대상보다 앞선다.
IAPR TC-12에서 DICNet은 0.323 AP, 0.981 1-HL, 0.873 1-RL, 0.874 AUC를 달성하여 경쟁자보다 우수하다.
MIR Flickr에서 DICNet은 0.589 AP, 0.888 1-HL, 0.863 1-RL, 0.849 AUC를 달성하며 일관된 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.